欢迎来到财经新闻网

Groq的架构“革命”的两股利益纠缠下

编辑:佚名      来源:财经新闻网      芯片   架构   一体   巨头   带宽

2024-03-09 20:19:31 

财经新闻网消息:je2财经新闻网

当地时间周四美股收盘,英伟达股价创下历史新高,市值超过2.3万亿美元。 3月8日开盘前涨幅超过3%,虽然盘中突然暴跌,但截至最新收盘,英伟达报875.28美元,跌幅为5.55%。 %,但该公司市值仍高达2.19万亿美元,与苹果的差距越来越小。je2财经新闻网

近段时间,在生成式AI对GPU算力的巨大需求的支撑下,英伟达的股价几乎暴涨,多次创出历史新高。 但在水下,英伟达面临的挑战从未停止,一些变化正在发生。je2财经新闻网

最近发布的模型被认为是最大的竞争对手,在多项基准测试中具有超越 GPT-4 的最高版本。 很少有人会注意到亚马逊在背后支持。 获得亚马逊投资后,使用其自主研发的AI芯片、训练和部署。 谷歌等巨头也在开发自己的AI芯片。je2财经新闻网

另一个引起波澜的事件是,不久前,AI芯片初创公司Groq声称其LPU(语言处理器)推理性能是 GPU的10倍,而成本仅为其十分之一。 一位AI创业者在试用了Groq的开放产品后,向记者感叹,“每秒520个token(文本单位),非常神奇。” 该芯片采用存储与计算一体化(近存计算)架构,并不完全等同于传统GPU的冯诺依曼架构。 受这款芯片推出的影响,近期获得融资的国内一家集成计算公司负责人也向记者表示,业界对这款面向AI的新架构芯片的关注度大幅提升。je2财经新闻网

芯片架构的创新和AI巨头的自研力量构成了挑战英伟达的两股暗流。 现在谈论颠覆或许还为时过早,但多重利益纠缠在一起,挑战不会停止。je2财经新闻网

_苹果股价累计涨幅_苹果股价上涨je2财经新闻网

Groq 的建筑“革命”je2财经新闻网

2016年,首席执行官黄仁勋移交了第一台DGX-1超级计算机。 这台超级计算机集成了八个P100芯片,将一年的训练时间压缩到一个月。 这是 GPU 驱动的大型模型建模的一个很好的例子。 之前在大型机型突然兴起的时候,多年来一直布局高性能计算、构建CUDA软件生态的抓住了机遇,凭借其多功能性和完善的软件生态成为了AI芯片的最大赢家。je2财经新闻网

但当谈到它的芯片架构是否最适合AI计算时,答案可能不是。 以为代表的主流GPU依靠高处理进程来提升性能。 然而,可以看到摩尔定律正在接近极限,制造更高工艺芯片的成本正在上升。 计算和存储分离的冯诺依曼架构芯片也面临着内存墙。 并且功耗墙,存储单元和处理单元之间需要数据传输,存储带宽限制了计算系统的有效带宽。 在记者此前参加的一次行业会议上,有业内人士统计了过去20年内存和处理器的性能增长情况,发现两者的差距正在以每年50%的速度拉大。 与计算能力的增长相比,数据处理能力的缓慢增长更具限制性。 模型开发。 业界已经在讨论如何避免冯诺依曼架构的缺点。je2财经新闻网

由于存储单元和处理单元之间的数据传输存在损耗,因此应缩短两者之间的距离。 的方法是利用DRAM(动态随机存取存储器)堆叠起来的HBM(高带宽内存),与GPU封装在一起,让存储和计算单元更接近,增加存储密度的同时减少传输损耗,增加带宽。 这是SK海力士等存储巨头的方向。 不过,该解决方案也受到HBM供应短缺的限制,并且依赖于台积电等先进封装。je2财经新闻网

解决内存墙还有一个办法,就是改变冯诺依曼架构,采用存储计算一体化架构,将计算单元和存储单元合二为一。 这种新架构可用于GPU、LPU等多种类型的芯片。 。 Groq的LPU推理芯片是一种更接近存储计算一体化架构的解决方案。 它还改变了芯片产品模型,使用SRAM(静态随机存取存储器)代替HBM,放大了SRAM高存取速度的优势。 在14nm芯片制造工艺情况下,可实现近1/秒的大模型生成速度,超过GPU驱动的GPT-3.5/秒。je2财经新闻网

》以 H100为例,里面还有一个SRAM,来自HBM的数据都要到SRAM中,带宽约为3.25Tb/秒。Groq芯片相当于不再连接单独的HBM内部带宽可达80Tb/秒,比GPU HBM大近30倍。 千信科技董事长陈巍告诉第一财经记者,Groq团队是从谷歌TPU()团队中走出来的,结合了原有的TPU架构思想。 近存计算和数据流架构在集群计算中表现出较好的性价比。je2财经新闻网

这款芯片推出后,以阿里巴巴科技前副总裁贾扬清为代表的一些人士,基于Groq LPU较低的显存容量与 H100的对比,认为Groq LPU的硬件成本和能耗要高于 H100。相同吞吐量条件下的H100。 陈薇关注的是平均计算成本。 经过定量计算,他发现Groq LPU服务器每token/s和每TOPS BOM模块/计算卡的成本低于 H100。 这是因为Groq LPU工艺远远不如5nm H100。 陈伟告诉记者,Groq LPU在近内存计算方面采用了相对成熟的架构。 在北美,2019年和2020年已经有新架构可以取代GPGPU的消息,Groq芯片的推出基本在预料之中。 一般来说,相信存储与计算一体化架构的计算能力可以比同工艺的逻辑芯片或GPU领先4代。 12nm或16nm集成存储计算芯片大约可以达到7nm或5nm传统架构GPU的计算能力。 未来,存储和计算与现有GPU技术的融合是一个发展方向,或者可能取代现有的传统GPU。je2财经新闻网

国家还针对人工智能需求,布局存储与计算一体化架构。 记者了解到,千芯科技相关芯片已通过互联网公司内部测试,正在大型机型上运行。 相关公司还包括易筑科技、阿里巴巴达摩院、智存科技、苹果芯科技、厚墨智能等,这些公司专注于云、汽车或其他边缘场景。 除了Groq使用的SRAM之外,业界还在探索ReRAM等更高密度的存储介质解决方案。je2财经新闻网

一些海外巨头正在尝试进入该市场,将存储与计算融为一体。 去年9月,美国AI芯片初创公司D-获得1.1亿美元B轮融资。 微软和三星出现在投资者名单中。 微软还承诺,D-将在今年推出该芯片时对该芯片进行评估以供自己使用。 Rain AI是另一家开发数字内存计算芯片的AI初创公司,此前曾获得首席执行官山姆·奥尔特曼(Sam )投资100万美元。 2019年与其签署意向书,计划斥资5100万美元收购Rain AI的AI。 芯片。je2财经新闻网

硅谷巨头纷纷行动je2财经新闻网

“受益于,也受制于”或许是过去一年硅谷巨头们追逐大机型时的写照。 虽然在AI芯片市场处于领先地位,但可用于大型模型训练和推理的GPU容量一度有限且价格不菲。je2财经新闻网

Meta创始人扎克伯格今年早些时候提到,到今年年底,公司的计算基础设施将包括35万张H100显卡。 James分析师此前表示, H100售价为25,000美元至30,000美元。 如果每张H100售价为2.5万美元,那么这些Meta显卡的价格将达到数十亿美元。 Sam 多次提到AI芯片的供需问题。 最近,他表示,世界需要比目前计划更多的人工智能基础设施,包括晶圆厂产能和能源。je2财经新闻网

_苹果股价累计涨幅_苹果股价上涨je2财经新闻网

除了之外,其他厂商近期也传出更多核心制造消息。 在回应今年2月份万亿美元造芯计划的传闻时,萨姆·奥尔特曼表示,“我们相信世界将需要更多的AI芯片。AI芯片需要全球巨额投资,这超出了我们的想象。” 另据报道,软银集团创始人孙正义正计划筹集1000亿美元资金资助一家芯片公司。je2财经新闻网

硅谷科技巨头起步较早。 的老对手AMD正在GPU领域迎头赶上。 亚马逊有用于AI训练的定制芯片和AI推理芯片。 去年,Meta发布了第一代AI推理定制芯片MTIA v1。 谷歌于2017年推出TPU,在此基础上构建AI产品。 据悉,谷歌90%以上的AI训练工作都使用TPU,Meta也计划在数据中心部署自己的AI芯片,以减少对芯片的依赖。je2财经新闻网

基于GPU的CUDA软件生态系统是它的护城河,但仅就某些硬件性能而言, GPU也并非不可能超越。 不少硅谷巨头厂商在绕过GPU领域后,已经在探索不同的路径。 上海交通大学计算机科学与工程系教授梁晓耀在一次行业论坛上提到,为英伟达在AI时代奠定算力基础的V100采用了Core单元,通过4×4的矩阵块,而一些制造商使用更大的矩阵块运算来实现更高的效率和计算能力,而 TPU和Tesla FSD芯片则使用脉动阵列来使芯片更加高效。je2财经新闻网

TPU、Meta 的 MTIA v1 和 Groq LPU 都是 ASIC(专用集成电路)。 据记者了解,GPU作为处理器,通用性和灵活性较强,但硬件可编程性较弱。 ASIC将算法固定在硬件上,灵活性较差,但理论上能耗性能和性能可以高于GPU。 除了克服内存带宽瓶颈的近内存计算之外,Groq官网还提到,其LPU也是为了克服计算密度的瓶颈而设计的。 对于大型语言模型,LPU的计算能力大于GPU和CPU。je2财经新闻网

_苹果股价累计涨幅_苹果股价上涨je2财经新闻网

这些 ASIC 的实际性能如何? 它是一个深度学习框架,可以使用 CUDA来加速GPU计算。 一位使用谷歌TPU和 GPU的研究人员告诉记者,TPU使用的是JAX框架。 JAX本身的软件开源生态还比较差,一些已经实现的功能需要在JAX上重新实现。 当执行正常操作且机器规模较小时, GPU 和 TPU 的效果差别不大。 但机器规模增大后,TPU的优势更加凸显,而且更加简洁高效,不需要太多额外的工程优化。 。je2财经新闻网

面对拥有先发优势的英伟达,迁移也是其他AI芯片厂商面临的挑战。 大型模型在其GPU上运行后,需要花钱迁移到其他AI芯片上,但其他厂商也不是没有解决方案。 上述研究人员表示,之前只为 CUDA 编写的代码很难迁移,但 .3 开始提供支持,可以通过 XLA 编译器快速适配到 TPU。 这意味着,如果要将在 GPU 上运行的大型模型迁移到 TPU,则无需重写所有代码。 但目前的限制是,迁移后的代码在大规模集群上训练时可能会出现一些问题。je2财经新闻网

我们也在努力打破的软件优势,让更多的AI芯片厂商进入竞争。 2021 年发布了开源 .0,与之类似,旨在让没有 CUDA 经验的研究人员能够高效地编写 GPU 代码。 去年年底的AMD大会上,宣布从下一个3.0版本开始支持MI300等AMD生态系统。je2财经新闻网

股价的飙升在一定程度上表明市场仍然看好英伟达,但竞争不会停止。 展望未来,AI芯片仍有很多可能性。je2财经新闻网

免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.comje2财经新闻网

发表我的评论 共有条评论
    名字:
全部评论
'); })(); /* 360自动推送代码 */