开云体育 平头哥发布首款智能网卡「磐脉 920」,补皆 AI 算力终末一块短板
作家|苏子华
裁剪|郑玄
最近两年,AI 行业最热的词一直绕不开「算力」。
从大模子磨练,到本年 Agent 的火热,再到各家云厂商不停扩建智算中心,行业有诡计最多的,险些都是 GPU、芯片和算力领域。约略只消卡够多,AI 就能陆续往前跑。
但履行并不是。
不少作念大模子磨练和推理的东谈主,还是越来越澄莹地感受到另一层问题:机器越来越贵,GPU 越来越强,但模子磨练和推理的效果,却莫得同步普及。
问题不一定出在算力自己,而可能出在另一件始终被疏远的事情上——网力。
平头哥家具总监李旭慧打了个比喻:「要是把算力比作 AI 期间的石油,网力即是输油管谈。算力提供能源,网力保险效果。」
4 月 28 日,在数字中国开导峰会上,平头哥发布首款智能网卡磐脉 920。这是国内首个内置 PCIe Switch 的 400G 智能网卡,最大相沿 400Gbps 朦拢带宽,可应用于万卡智算集群、通算集群和高性能存储等场景,现时还是量产,并将率先部署在阿里云数据中心。

磐脉 920 想要搞定的即是「网力」问题。
今天的大模子磨练,一个磨练任务,常常需要几千致使上万张 GPU 同期合营。单张 GPU 性能再强,也必须跟通盘这个词集群保抓同步。
问题在于,只消其中一部分节点慢下来,其他节点就只可恭候。他不雅察到,现时行业里好多万卡级智算集群,GPU 实质应用率较低,「能作念到 60%,还是算行业顶尖水平。」
往日行业更容易温雅「有些许卡」,但实质在 AI 磨练场景中,系统运行效果并不是由最强的硬件决定,而是受限于集群里最慢的阿谁节点。「跳跃节点的算力会抓续闲置恭候,酿成大领域算力糟践。」
磐脉 920 的发布实质上也指明了一个场所:当 GPU 还是弥散强之后,下一步到底该补何处。
一张网卡,周转通盘这个词智算集群
当 AI 智能体启动进入确实业务场景,推理业务的占比越来越高。
「在 Agent 应用爆发的布景下,推理业务的增长速率显赫快于磨练。」李旭慧示意。
大模子磨练强调强同步,而推理濒临的是无数突发、小包、高频央求,对低时延和稳固性的要求更高,明陞M88体育中国官网这也意味着对「网力」的要求更高。
而玄虚一下磐脉 920 在作念的事,即是尽量减少整系统里的「堵」和「等」,通过网力的普及来开释 AI 算力。
其背后的杀青旨趣,有三个要津。
最初是相沿多旅途 RDMA,冲破单一皆径的局限。
平庸相识,即是原来只可走一条高速,现时变成多条路同期分流。更要津的是,这些数据诚然分开走,但最终还能按法令准确拼回归。
李旭慧讲明,磐脉 920 通过相沿逐包喷洒、乱序接收和遴荐性重传,杀青 RDMA 多旅途。
从扫尾来看,这套决策带来的改善比拟径直。
按照官方实测,磐脉 920 相沿单 QP 打满 400G 带宽,而同类主流家具带宽约莫唯有其一半。同期,多旅途智商不错把交换机端口缓冲区水线诽谤 90%,减少丢包和重传。
第二个要津假想,是把「绕路」变成「直连」。
磐脉 920 最大的亮点之一,是内置 PCIe Switch。这亦然国内首个作念到这极少的 400G 智能网卡。
传统劳动器架构里,开云体育PCIe Switch 日常部署在主板上,数据需要绕多个节点转发。扫尾即是,有的旅途长,有的旅途短,时延不一致。
关于需要高度同步的 AI 磨练任务来说,这种「不整皆」会径直影响效果。
李旭慧打了个比喻:传统架构里,频繁会出现「四个下行通谈挤一个上行通谈」的情况。
这很像四条岔路同期汇入一条骨干谈,堵塞险些不成幸免。
磐脉 920 把 PCIe Switch 径直集成进芯片里面,让网卡与 CPU、GPU 形成更径直的一语气有计划。
少绕路,意味着更低时延;旅途更长入,则意味着更稳固的同步效果。
证实平头哥实测,在调换集群领域和任务条目下,部署磐脉 920 后,大模子磨练和推理任务完成期间可裁汰 14%。
第三个要津,是让集聚具备我方判断的智商。
传统网卡更多像搬运工。收到数据,搬往日,仅此费力。
据了解,磐脉 920 加入了细粒度集聚感知和可编程拥塞罢休智商。直白讲,即是它能主动避堵。让集聚启动从被迫传输,变成主动调养。
关于越来越复杂的 AI 集群来说,这种智商的弥留性会越来越澄莹。
从这些假想能看出来,磐脉 920 并不是在追求参数上的浅显普及,它作念的事情很求实,让还是很贵的算力,少糟践极少,从而引发最大的潜能。
为何是阿里在界说 AI 基础行径?
除了性能自己,磐脉 920 背后更值得温雅的,是平头哥和阿里的举座布局。
往日几年,好多公司作念芯片,常常集结在单一程序,比如 GPU、AI 加快卡或者 CPU。
但平头哥的想路是作念全栈。
现时,平头哥还是形成四条家具线:真武系列 AI 芯片、倚天劳动器 CPU、镇岳存储主控芯片,以及此次发布的磐脉系列智能网卡。
对应的,赶巧是数据中心里的几个要津程序:算力、存力和网力。
李旭慧在采访中示意:「单一芯片家具无法搞定全链路问题,唯有买通算力、存力、网力,身手最大化开释 AI 硬件性能。」
这亦然平头哥和好多单点芯片公司的分别。它不是只作念一块性能更强的芯片,而是试图从通盘这个词系统角度去看问题。
好多芯片公司作念家具,先作念出来,再去找客户和落地场景。
但平头哥不是。
李旭慧告诉极客公园,磐脉 920 立项之时 AI 智能体尚未成为行业焦点。但他们从阿里云自身业务中判断,将来 AI 一定会鼓舞数据中心集聚智商升级。
「一线业务场景的实质需求,是芯片工夫迭代与家具优化的中枢驱能源。」先有阿里云的大领域业务场景,再从实质场景需求里倒推家具界说。
这即是磐脉 920 的贸易旅途。据显露,和平头哥倚天、真武、镇岳系列芯片不异,它会先部署在阿里云数据中心。
从这个角度看,磐脉 920 的发布,自己即是阿里「通云哥」协同智商的一次体现。
通义慎重模子,阿里云慎重场景,平头哥慎重底层硬件。模子需求鼓舞云基础行径升级,云场景又反向鼓舞芯片演进。
这种全栈自研的闭环,在国内科技公司里并未几见。「通云哥」的花样诚然前期参加大、周期长,但一朝走通,护城河也极深。
AI 竞争走到今天,比拼的还是不是单点智商,而是这一整套系统能否顺畅运转。
跟着 AI 越来越多从磨练走向推理开云体育,模子、云与芯片之间形成的抓续反应轮回,举座上风的显现可能才刚刚启动。
开元棋牌(中国)官网入口