2025-09-24 01:46来源:本站
周二,Cerebras Systems宣布,通过在生成式人工智能(AI)中加入越来越流行的“思维链”(chain of thought)方法,meta Platforms的Llama在小型版本上的表现与大型版本一样好。这家人工智能电脑制造商在一年一度的NeurIPS人工智能会议开始时宣布了这一进展。
“这是一个闭源的功能,但我们想把这个功能带到最流行的生态系统,也就是Llama,”Cerebras产品营销负责人James Wang在接受ZDNET采访时表示。
该项目是Cerebras为展示其专用人工智能计算机“CS-3”的能力而开展的一系列开源项目中最新的一个。该公司销售CS-3,与人工智能领域的现状——来自英伟达和AMD等传统供应商的GPU芯片竞争。
该公司能够训练Llama 3.1开源人工智能模型,该模型仅使用700亿个参数,在各种基准测试中达到与更大的4050亿个参数版本Llama相同或更好的精度。
这些测试包括由麻省理工学院和meta开发的“复杂推理任务”CRUX测试,以及由加州大学伯克利分校、麻省理工学院和康奈尔大学开发的用于代码生成挑战的LiveCodeBench。
思维链可以使模型使用更少的训练时间、数据和计算能力,达到或超过大型模型的性能。
王说:“从本质上讲,我们现在正在击败美洲驼3.1 405B,这是一个大约七倍大的模型,只是通过在推理时间上进行更多的思考。”
思维链处理背后的理念是让AI模型详细描述在追求最终答案时执行的计算顺序,以实现“可解释的”AI。可以想象,这种可解释的人工智能可以通过披露答案的基础,让人类对人工智能的预测更有信心。
OpenAI最近发布的“o1”大型语言模型推广了思维链方法。
“大脑计划与优化”(Cerebras Planning and Optimization,简称CePO)是大脑对l1的回答,它要求“羊驼”在提交提示时“逐步制定解决给定问题的计划”,反复执行该计划,分析每次执行的反应,然后选择一个“最佳”答案。
“与传统的法学硕士不同,在传统的法学硕士中,代码只是逐个标记,这将查看它自己生成的代码,看看它是否有意义?”王解释说。有语法错误吗?它真的达到了人们的要求吗?它会运行这种计划执行和多次交叉检查的逻辑循环。”
除了匹配或超过Llama 3.1的405B模型外,Cerebras还能够采用最新的Llama版本3.3,并使其性能达到“前沿”大型语言模型的水平,如Anthropic的Claude 3.5 Sonnet和OpenAI的GPT-4 Turbo。
他说:“我认为,这是第一次有人用70B这种通常被认为是中型的机型,实现了前沿水平的性能。”
有趣的是,Cerebras公司还让Llama进行了“草莓测试”,这一提示暗示了OpenAI公司的“草莓”代号。当“r”的数字相乘时,比如“草莓”,语言模型被提示告诉r的数量,它们通常会失败。美洲驼3.1能够使用思维链准确地将不同数量的r联系起来。
从企业的角度来看,Cerebras公司急于展示其人工智能计算机CS-3的硬件和软件优势。
“羊驼”的工作是在cs -3上完成的,使用的是世界上最大的半导体——大脑公司的WSE3芯片。Wang说,该公司能够在思维链上运行美洲驼3.1 70B模型,以及更新的美洲驼3.3,而不会出现运行在英伟达和AMD芯片上的01和其他模型所引起的典型延迟。
该公司声称,3.1 70B的思维链版本是在Cerebras CS2s上运行时“唯一实时运行的推理模型”。“OpenAI推理模型o1在几分钟内运行;CePO几秒钟就能运行。”
Cerebras最近推出了它所谓的“世界上最快的推理服务”,声称CS2机器比GPU芯片上最快的服务快16倍,每秒处理2100个令牌。
Cerebras的实验支持了一种越来越强烈的感觉,即随着提示变得越来越复杂,不仅人工智能模型的训练,而且在生产中进行预测,都在扩展到更大的计算需求。
王说,总的来说,大型语言模型的准确性将与训练和推理中使用的计算量成比例地提高;但是,性能提高的因素将取决于在每种情况下使用的方法。
“不同的技术将以不同的程度扩展计算,”王说。“这些线的斜率会不同。值得注意的是,它是可以扩展的,而且似乎没有尽头。”
他说:“传统观点认为,改进会停滞不前,你需要在算法上取得突破。”“缩放定律说,‘不,你可以在没有实际限制的情况下投入更多的计算。神经网络的类型、推理方法等会影响改进的速度,但不会影响其可扩展性。”
在不同的实现中,思维链可以输出一系列冗长的中间结果,也可以输出一种表示“思考”之类内容的状态消息。当被问及大脑选择了哪一个时,王说他自己没有看到实际的输出,但“可能是冗长的”。当我们发布服务于羊驼和开源模型的东西时,人们喜欢看到中间结果。”
同样在周二,大脑公司宣布,在与美国能源部下属的桑迪亚国家实验室进行的一项研究项目中,它已经展示了对一个拥有一万亿参数的大型语言模型的“初步”训练。
这项工作是在一台CS-3上完成的,它与专门建造的内存计算机MemX结合在一起。MemX的一个特殊版本被提升到55tb的内存来保存模型的参数权重,然后通过Cerebras的专用网络计算机SwarmX传输到CS-3。
CS-3系统,Cerebras公司声称,将取代Nvidia的顶级“Grace Blackwell 200”组合CPU和GPU芯片的287个,这些芯片需要访问相同的内存。
一个CS-3和MemX的组合占用了两个标准的电信设备机架,王说。该公司声称,这只需要不到同等GPU安排的1%的空间和功率。
MemX设备使用的是被称为DDR-5的普通DRAM,而GPU卡使用的是更昂贵的“高带宽内存”(HBM)。
王说:“它不涉及HBM供应链,因此非常容易采购,而且价格低廉。”
Cerebras认为,真正的回报在于编程模型。Wang说,为了协调数百个gpu,总共需要20,507行代码来协调AI模型的Python, C和c++以及shell代码和其他资源。同样的任务可以在CS-3机器上执行,只需565行代码。
他说:“这不仅仅是硬件方面的需求,从编程的角度来看,这要简单得多,因为你可以把这个数万亿参数的模型直接放入这个内存块中”,而gpu需要“管理”“数千个80 gb的HBM内存块”来协调参数。
该研究项目对人工智能模型进行了50个训练步骤的训练,但尚未将其训练到“收敛”,即训练到完成状态。要训练一个有万亿参数的模型使其收敛,需要更多的机器和更多的时间。
然而,大脑公司随后与桑迪亚国家实验室合作,在其中16台CS-3机器上进行了训练。Wang说,性能以“线性”的方式增长,即训练精度与放入集群的计算机数量成正比。
“GPU一直声称线性缩放,但实现起来非常非常困难,”王说。“我们的晶圆级集群的重点在于,因为内存是统一的块,计算是分开的,我们在两者之间有一个结构,你不必担心这一点。”
虽然与桑迪亚的合作并没有训练模型收敛,但这种大型模型训练“对我们的客户非常重要,”王说。他说:“这实际上是在花费大量资金进行大规模运行之前的第一步。”这意味着完全收敛。
他说,该公司最大的客户之一、阿拉伯联合酋长国的投资公司G42“非常有动力取得世界级的成果”。“他们想要训练一个非常非常大的模型。”
王说,桑迪亚国家实验室有了一些“最终结果”后,可能会公布实验结果。
NeurIPS会议是人工智能领域最重要的活动之一,通常是首次公开披露突破。为期一周的活动的完整时间表可以在NeurIPS网站上找到。