英伟达“中国特供版”H20 AI芯片综合算力比H100降80%文件显示，新的H20拥有CoWoS先进封装技术，而且增加了一颗HBM3（高性能内存）到96GB，但成本也随之增加240美元；H20的FP16稠密算力达到148TFLOPS（每秒万亿次浮点运算），是H100算力的15%左右，因此需要增加额外的算法和人员成本等；NVLink则由400GB/s升级至900GB/s，因此互联速率会有较大升级

Yummy 😋

传 Nvidia 将于本月为中国推出三款“阉割版”芯片，以突破出口禁令《彭博》引述来自《科创板日报》的消息，指 Nvidia 现已开发出针对中国区的最新改良版系列芯片：HGX H20、L20 PCle 和 L2 PCle。知情人士称，最新三款芯片是由 H100 改良而来，Nvidia 最快或将于 11 月 16 日之后公布。现时中国厂商最快将在这几天拿到产品。 Nvidia 上月已禁止向中国出高端 GPU，除了 H100、A800、H800 外，就连高端的消费者级别显示卡 RTX 4090 也无法出货。外界已预期…

英伟达“中国特供版”H20 AI芯片综合算力比H100降80%

文件显示，新的H20拥有CoWoS先进封装技术，而且增加了一颗HBM3（高性能内存）到96GB，但成本也随之增加240美元；H20的FP16稠密算力达到148TFLOPS（每秒万亿次浮点运算），是H100算力的15%左右，因此需要增加额外的算法和人员成本等；NVLink则由400GB/s升级至900GB/s，因此互联速率会有较大升级。

据评估，H100/H800是目前算力集群的主流实践方案。其中，H100理论极限在5万张卡集群，最多达到10万P算力；H800最大实践集群在2万-3万张卡，共计4万P算力；A100最大实践集群为1.6万张卡，最多为9600P算力。

然而，如今新的H20芯片，理论极限在5万张卡集群，但每张卡算力为0.148P，共计近为7400P算力，低于H100/H800、A100。因此，H20集群规模远达不到H100的理论规模，基于算力与通信均衡度预估，合理的整体算力中位数为3000P左右，需增加更多成本、扩展更多算力才能完成千亿级参数模型训练。

🗒 标签: #Nvidia #英伟达
📢 频道: @GodlyNews1
🤖 投稿: @Godlynewsbot