全球首款 3D 晶圆级封装处理器 IPU 发布,突破

 头条123   2025-05-01 02:24   227 人阅读  0 条评论
全球首款 3D 晶圆级封装处理器 IPU 发布,突破

本周四,总部位于英国的 AI 芯片公司 Graphcore 公布了新一代 IPU 产物 Bow,那是其 三代 IPU 体系,公布即面向客户发货。与上一代 IPU 比拟,Bow IPU 机能晋升 40% ,能耗比晋升了 16%,电源效力也晋升 16%。

值得注重的是,那一次 Bow IPU 的机能晋升并不是首要依靠采取更进步前辈的造程,Bow IPU 采取了和上一代 IPU 不异的台积电 7nm,经由过程采取和台积电配合开辟的进步前辈硅晶圆堆叠手艺(3D Wafer-on-Wafer)到达机能和能耗比的晋升。

Bow 做为天下首款 3D WoW 处置器,证实了芯片机能晋升的范式从进步前辈造程向进步前辈封拆转移的可行性。

  新一代 IPU 机能晋升 40%,价前连结稳定

2016 年,Graphcore 建立并首创了全新范例处置器架构 IPU,因其正在架构上的立异曾被英国半导体之父 Hermann Hauser 称之为是计较机汗青上的 三次反动。

履历 6 年时候的成长,Graphcore 的 IPU 逐步正在正在金融、医疗、电信、机械人、云和互联网等范畴获得效果。本周四,Graphcore 又推出了 三代产物 Bow IPU。

据 Graphcore 先容, 三代 IPU 相对上一代 M2000,机能进步 40%,每瓦机能晋升 16%,即能耗比实现 16% 的晋升。不外,AI 芯片的实在机能还需求放正在分歧的利用范畴中会商。为此,Graphcore 也给出了正在分歧垂曲范畴中 Bow 的机能表示。

正在图象方面,不管是典范的 CNN 收集,仍是近期比力热点的 Vision Transformer 收集,和深条理的文本到图片的收集,与上一代产物比拟,Bow IPU 都有 30% 到 40% 的机能晋升,正在 EfficientNet-B4 那一项中,靠近实际上限值。

BERT 练习模子是天然说话方面的典范模子,基于 BERT,OpenAI 提出了 GPT-1、GPT-2、GPT-3 等纵向扩大或横向扩大,经由过程更深的收集条理和更宽的收集宽度让模子的机能和精度进一步进步。

“我们能够看到,那些模子正在我们新 的硬件形状上都有很年夜的机能晋升。”Graphcore 中国工程副总裁、AI 算法科学家金琛先容道。

不但如斯,转换到现实模子中的吞吐量,与 IPU POD64 比拟,正在计较机视觉的 ResNet50 和 EifficientNet-B4 练习模子中,Bow Pod64 的吞吐量可以或许到达 34% 和 39% 的机能晋升。天然说话方面,BERT-Large Ph1 预练习模子和语音辨认 Conformer Large 练习模子,后者都有 36% 的吞吐量晋升。

做为英伟达的合作敌手,Graphcore 天然不忘将 Bow Pod16 与 DGX-A100 停止对照,尝试数据表白,EfficientNet-B4 的 backbone 的练习正在 DGX-A100 上需求破费 70 个小时的练习时候,而正在 Bow Pod16 上,只需求 14 小时摆布。

靠近实际极限的机能晋升,Graphcore Bow IPU 是若何实现的?

  5nm 不再是首选,采取进步前辈封拆性价比更高

从芯片的规格上看,Bow IPU 是天下上 一款基于台积电的 3D Wafer-On-Wafer 的处置器,单个封拆中具有跨越 600 亿个晶体管,具有 350 TeraFLOPS 的野生智能计较的机能,是上一代 MK2 IPU 的 1.4 倍。片内存储较上一代来看没有转变,仍然连结 0.9GB 的容量,不外吞吐量从 47.5TB 进步到了 65TB。

“转变首要表现正在,它是一个 3D 封拆的处置器,晶体管的范围有所增添,算力和吞吐量均获得晋升。”Graphcore 年夜中华区总裁兼环球首席营收官卢涛说道。而正在年夜家都存眷的工艺造程上,Bow IPU 持续了上一代台积电 7nm 工艺造程,没有转变。

实际上,一颗芯片的机能晋升很年夜水平上取决于工艺造程上的前进,但跟着工艺造程愈来愈迫近物理极限,摩尔定律逐步掉效,业界不能不寻觅新的手艺标的目的来持续摩尔定律。此中,3D 封拆就是被业界普遍看好的手艺标的目的。

中国工程院院士、浙江年夜学微纳电子学院院长吴汉明就曾正在一次演讲中提到,若是将芯片造造和芯片封拆相连系,也能够做到 65nm 工艺造程实现 40nm 工艺造程的机能功耗要求。

Bow IPU 恰好考证了吴院士的不雅点。

卢涛暗示,Bow IPU 产物机能的晋升首要来历于 3D WoW 和新增的 Die。

至于为什么挑选改动封拆体例而不是更进步前辈的工艺,卢涛则暗示 MK2 IPU 有 594 亿个晶体管,年夜概 823 平方毫米,已是 7nm 单个 Die 可以或许出产的 紧密的芯片。

“我们评价从 7nm、5nm,到 3nm 等分歧工艺节点的收益时发明,从 7nm 到 5nm 的出产工艺晋升所带来的收益不像之前从 28nm 到 14nm 一样,可以或许带来百分之几十的收益,而是降到了 20%。这时候候我们能够经由过程此外手腕和方式取得一样的收益。”

经由过程 3D 堆叠的体例,Bow IPU 的两个 Die 增添了晶体管的数目,此中一个 Die(Colossus Die)和上一代一样,另外一个 Die 首要用于进步跨 Colossus Die 的电源功率传输,优化 Colossus Die 的操纵节点,从而转化为有用的时钟加快。

正在同台积电的协作方面,卢涛告知雷峰网,Graphcore 正在一年之前就同台积电协作了一颗测试芯片,与台积电的干系很是慎密,加上 AI 处置器自己范围较年夜,需求一些新手艺撑持落地,而从台积电的角度而言,新的手艺也需求有需求的产物配合推动。

值得一提的是,固然封拆体例有所转变,但 Bow IPU 开箱即用,与前一代产物百分之百软件兼容,不消点窜任何代码,老用户无需做任何软件适配事情就可以取得机能晋升,价前连结稳定。

今朝,美国国度尝试室 Pacific Northwest 已基于 Bow IPU 测验考试做一些基于 Transformer 的模子和图神经收集,面向计较化学和收集平安方面的利用,且给出了比力正面的反应。

持续 3D 封拆,开辟超出人脑的超等智能机械

Bow IPU 利用 3D 封拆只是出发点,面向将来,Graphcore 正正在开辟一款能够用来超出人脑处置的超等智能机械。

Graphcore 将那款正正在研发的产物定名为 Good Computer,一方面但愿计较性能够为那个天下带来正面的影响,另外一方面致敬闻名计较机科学家 Good。

基于 3D WoW,估计将来 Good Computer 将包括 8192 个 IPU,供给跨越 10 Exa-Flops 的 AI 算力,实现 4 PB 的存储,能够助力跨越 500 万亿参数范围的野生智能模子的开辟。

取决于分歧的设置装备摆设,Good Computer 价前将正在 100 万美圆到 1.5 亿美圆之间。

卢涛暗示,开辟 Good Computer 仍是会相沿 IPU 的系统布局,IPU 的存储是正在处置器内里,固然不叫类脑、内存计较或存算一体,但从某种水平上而言,IPU 的运做机理靠近年夜脑计较的事情道理,只是把计较和存储相连系。

别的,Graphcore 也将从软件方面更有用撑持稀少化以到达类脑的计较量。

本文地址:https://www.toutiao123.net/news/28221.html
版权声明:本文为原创文章,版权归 头条123 所有,欢迎 本文,转载请保留出处!
 相关文章  关键词:全球 首款 晶圆级 封装 处理器