欢迎来到财经新闻网

腾讯大模型支撑头部厂商挑战机器学习平台不再是从到1

编辑:佚名      来源:财经新闻网      模型   训练   推理   显存   应用

2023-11-27 18:05:42 

财经新闻网消息:kt7财经新闻网

在将生成式大模型引入主流后,几乎所有领先厂商都在研究并推出自己的大模型业务。 今年9月,腾讯推出自主研发的通用大模型“混元大模型”,成为国内领先科技公司中最后一家对外发布大模型业务的公司。kt7财经新闻网

推广大模型的应用是一个相当复杂的工程。 不仅要考虑如何降低训练和微调的成本,还要关注生产过程中推理的成本。 因为当所有应用场景都使用数千亿个模型进行训练和推理时,就会产生长期的成本消耗,企业需要支撑每次服务调用带来的算力成本。kt7财经新闻网

一些厂商还推出了小尺寸模型,试图在性能、成本和效果之间取得平衡:在一些需要高度复杂推理的场景中使用大模型能力,在一些不太复杂的场景中使用小尺寸模型。kt7财经新闻网

任何厂商想要推出领先于竞品的大模型服务,不仅要拥有最好的硬件集群,还要提供新算力集群的训练推理框架和软件框架,并融合软硬件适配。kt7财经新闻网

针对这些话题,两位来自腾讯的浑源大模型技术专家近日与界面新闻等媒体进行了深入交流。 他们谈论了大模型对传统深度机器学习平台的改变,以及大模型底层技术支持对领先厂商的影响。 挑战。kt7财经新闻网

机器学习平台不再从0到1kt7财经新闻网

模型深度等级__深度模型训练过程kt7财经新闻网

虽然都属于人工智能的范畴,但在各大公司纷纷涉足大模型的开发之后,即便是不久前的深度机器学习平台,也与大模型优化的新训练推理范式有着本质的区别。kt7财经新闻网

从模型微调、评估到部署,这些环节现在是专属模型定制的主要训练流程。 与传统机器学习平台的区别也主要集中在这个过程上。kt7财经新闻网

例如,传统的机器学习平台只提供各种库和算法,训练是从0到1的过程,并没有提供带有参数的模型。kt7财经新闻网

如今各大厂商提供的千亿级基础模型,包含了各种规模的模型矩阵和海量的数据。 这时,研发人员要做的就是微调专属模型并构建应用。kt7财经新闻网

其中,海量的数据决定了应用实现的天花板。 十多年前的机器学习平台中,数据科学家将60%-80%的时间花在数据清理上,只有20%左右的时间花在建模上。kt7财经新闻网

_深度模型训练过程_模型深度等级kt7财经新闻网

大模型时代用于训练的原材料往往是从PB()级别开始的。 “任何环节你都无法手工完成。” 腾讯机器学习平台部专家工程师姚军表示,如果没有智能数据处理,科学家连手工都做不到。 处理数据需要 100% 的时间。kt7财经新闻网

这种参数规模代表了数量级的增加。 “光有情报还不够,还必须收集数据。” 2020年的一篇论文称,他们通过研究发现,整个人工智能,从神经网络的深度和宽度来看,数据越多、模型越大,其总结知识和泛化推理的能力就越强。kt7财经新闻网

基础模型的参数决定了智能能力的天花板,但能否达到天花板往往取决于其对业务场景的适应,即模型微调的效果。kt7财经新闻网

微调是指企业在大厂家提供的基础模型的基础上进行专属模型训练(二次训练、微调训练),优化企业自身的应用场景和特有数据,使大模型能够理解企业的应用指令。 ,并以特定方式输出其存储的数据。kt7财经新闻网

比如前不久的发布会上,CEO Sam展示了创业训练营案例文档,其中包含了大量传统的OCR和表格转换工作。 如果想要一个大的模型能够理解文档,就需要针对这个垂直场景进行大量的训练。 。kt7财经新闻网

_模型深度等级_深度模型训练过程kt7财经新闻网

对于那些千亿参数的大型模型,微调过程中可以改变多少参数? 改动越多,对场景的适应越好,但也意味着更高的训练成本。kt7财经新闻网

大模型所提供的不同尺寸、不同程度的参数调整能力以及减少错觉的需求也与传统机器学习平台完全不同。kt7财经新闻网

每个人都有数据,那么为什么训练一个大模型这么难呢?kt7财经新闻网

虽然很多公司积累了大量的数据,但并不是每个公司都能承担训练大型模型的工作。 挑战主要来自四个方面:kt7财经新闻网

1.算力挑战。 大型模型的计算能力呈指数级增长,超过了许多硬件加速器的计算能力。kt7财经新闻网

从早期的Bert模型到GPT3和GPT4,深度模型网络必须通过反向和正向计算来获得最佳权重值。 必须在每个位置进行计算。 因此,模型中的节点数量和网络级别 模型的大小决定了模型所需的计算量。kt7财经新闻网

相比之下,当今主流的硬件加速器的计算能力有限。 以Bert模型为例,如果使用 V100卡计算,大约需要50天。 如果用这张卡来计算GPT系列模型,可能需要几十上百年的时间。kt7财经新闻网

2. 视频内存挑战。 目前,大型机型的规模已提升至TB级别,远远超过卡的显存大小(GB级别)。 不再像过去那样用卡来运行模型,分布式训练框架等新技术变得必要。 马路。kt7财经新闻网

3.沟通挑战。 使用多卡进行分布式训练时,卡之间存在大量的通信损耗,因此单纯添加显卡并不能达到线性加速的效果。 换句话说,卡片数量增加一倍并不会减少一半的训练时间。kt7财经新闻网

因此,如何解决分布式训练中的通信问题,让实际加速比尽可能接近理论加速比,也是一个很大的工程问题。kt7财经新闻网

_模型深度等级_深度模型训练过程kt7财经新闻网

4.失败挑战。 所有硬件都有一定的故障率,显卡运行时间过长就会出现故障,尤其是温度问题。 当GPU计算能力使用到较高水平时,就会产生散热问题。 高温会导致机器进入自我保护状态,直接关机。kt7财经新闻网

这些都是目前研究大型模型的技术人员所面临的工程技术问题。 腾讯机器学习平台部总监陶阳宇也介绍了一些腾讯此前未公开的解决方案。kt7财经新闻网

例如,采用3D多维并行来提高训练的并行度,采用“数据并行+张量并行+管道并行”的方法,结合算子优化技术,改善并行路径,减少分布式中的网络通信开销。培训过程,提高整体培训绩效。kt7财经新闻网

例如,在存储层面,从统一的角度对GPU内存和系统内存进行统一寻址和管理,以扩展可存储模型的容量。 显存和主存连接后,技术人员在训练时可以先将大量参数放入系统存储中,需要时再放入显存中。kt7财经新闻网

目前80G的显存大小已经算很大了,但系统存储的主流容量已经达到2T。 因此,通过显存和系统内存的统一寻址,单机存储容量可提升90%,突破了显存的限制。 这也可以盘活大量低端显卡库存,用低端卡训练大型模型。kt7财经新闻网

在显卡供应受限的情况下,这一点显得更为重要。 从实际效果来看,腾讯已经能够基于40G低端显卡训练大型混元千亿模型,并利用24G低端卡实现模型微调。kt7财经新闻网

免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.comkt7财经新闻网

发表我的评论 共有条评论
    名字:
全部评论
'); })(); /* 360自动推送代码 */