We engineer tomorrow to build a better future.
Solutions to your liquid cooling challenges.
 
 
DANFOSS
数据中心液冷产品
  数据中心液冷产品
  FD83接头
  UQD快速接头
  UQDB盲插接头
  BMQC盲插接头
  EHW194液冷软管
  5400制冷剂接头
  Manifold 分水器
  液冷系统生产及集成
Danfoss流体管阀件
 
 
 
 
 
非标定制液冷产品
液冷系统生产及集成
阀门
传感器
选型资料下载
  新闻通告
  成功案例
  资料下载

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


   

 

英伟达特供版AI芯片H20更新!



事件:Nvidia英伟达对华“特供版”AI芯片H20的终端产品已可接受预订。根据草根调研,单卡售价根据性能外推预期在1.3-1.4万美金,国内有两家大厂已向英伟达下订单采购数万片H20,乐观Q2出货。全年H20出货量可能会在大几十万片,之前的市场预期应该是30万片左右。同时,英伟达另一中国特供版芯片L20 PCIE目前也在测试中,即将启动采购。

事件:英伟达对华“特供版”AI芯片H20的终端产品已可接受预订。根据草根调研,单卡售价根据性能外推预期在1.3-1.4万美金,国内有两家大厂已向英伟达下订单采购数万片H20,乐观Q2出货。全年H20出货量可能会在大几十万片,之前的市场预期应该是30万片左右。同时,英伟达另一中国特供版芯片L20 PCIE目前也在测试中,即将启动采购。
国产算力趋势非常明确、持续关注国产算力链我们认为,两家大厂关于H20的大单并不会冲击国产算力演绎逻辑。国产算力的趋势是明确且不可逆的。一方面,我国对芯片国产化的支持力度强而持续。国产芯片持续自主迭代,在实践中性能得到大幅提升。另一方面,近年来美国持续升级对华制裁,今年1月以来更是多方面收紧我国获取先进计算能力的途径。



算力国产化是必由之路。国产芯片占比持续提升 测算了 23、24年我国AI芯片市场各家占比情况。国产芯片占比可能从去年25%左右提升至40%到45%。 此次H20订单较超预期、建议关注中国NV链去年年底至今,国内外对H20在华出售的预期较为悲观,此次两家大厂的订单较超预期,建议关注浪潮信息、紫光股份等相关标的建议持续关注国产算力


H20:是高缓存、高带宽,但是算力性能差,这主要是M国禁令的要求和限制。H20卡算力性能差,大约是HW昇腾910算力的一半,缓存与带宽是比910B高,带宽是910B两倍。NV有NVlink架构。英伟达的卡是通过多卡使用、多卡堆叠模式,与国内HW的高算力的卡抗衡。国内910B的性能与A100单卡很接近,1)国内的卡弊端是互联带宽弱,卡间、AI服务器间弱;2)软件生态不够成熟。英伟达的卡是在这个软肋的基础上推出的,在互联带宽与CUDA生态上做的。


Q&A

Q:H20是H800做训练的6-7成。原来H的时候,算力使用效率是3-4成,新的H20加大带宽,组成集群的大模型训练效率可能比H800更好吗?

A:国内软件训练框架比较弱,国内是GPT1.0\2.0架构为主,H800算力性能很高,但还是在几百万的训练参数方面没有办法使用起来,H800使用效率很低。但是H20方面,更容易取得训练参数不是很高的方面,很适合多卡堆叠与多个AI服务器的使用。


Q:改良版芯片是更容易大模型训练的吗?

A:国内大模型训练方面,不能单独看硬件。一是卡,二是框架。GPT4.0是基本囊括国内所有知识,但国内3.0、4.0都没办法用,正规渠道都是1.0/2.0,训练参数、性能都局限了。即使H100有卡也训练不出来,因为底层软件有局限。英伟达推出H20的卡,是可以通过国内客户多买卡实现与A100、H800同样效率。NV可以多买卡,又满足美国禁令,也不会让基于GPT2.0训练模型框架训练处更高的模型,这个模式也是一举多得的。NV不会完全切断NV与国内的来往,硬件可以给,但是软件层面切断,国内没办法用千亿级训练模型的框架。 NV的IB交换机,光模块的400G\800G不是必须的。因为H100 AI服务器,可以用400G光模块,也可以800G(8张卡是4个800G光模块)。因为AI服务器数量多了,光模块数量也会多的。组网方面,是NV用ib交换机,正常组网还是以太网交换机。


Q:H20产品的HBM3是一个板用了3个,就是算力是A100的30%,HBM用量一样?

A:单卡的HBM量与H800相近,H20的cowos的制程与800相比更简单。卡的算力高低,在于晶元制程,nm越低,集成度越高,算力越强。H20的算力来看,设计工艺是一般,还不如910B的算力设计工艺好。代工厂而言,可以用一些比较差的制造工艺来复用,成本下降了。唯一是HBM的好了,价值量3倍。


Q:H20的NVLINK是900GB/S,H800只是400,可以达到吗?

A:NVLINK对NV不是高端的,很成熟了,H系列都可以支撑。网络带宽支撑这么大,可以买更多的卡达到,nvlink的传输速度可以领先的。昇腾达不到的,现在是400G,8卡一连就是200了。


Q:训练框架是指?

A:训练模型都是用语言框架支撑,软件框架。软件更新换代,或者技术迭代,国内训练语言框架方面,软件版本比较低,为1.0、2.0,海外升级到GPT 4.0版本。API端口不给国内账户申请试用,所以体会不到4.0里面软件功能。美国封锁A100\H100是不愿意分享制造工艺。


Q:为什么H20卡不需要covos封装?

A:看到有HBM,但是cowos是4或3nm以上,是高端封装,所以A100\A800\H20,制造工艺不像H100那么高,所以封装架构不需要cowos,成本下降。明年H100北美需求旺盛,所以不会为了中国的量,占用封装产能。


Q:对算力租赁影响?

A:从前大部分是A\H800,但是现在对于禁令以后,算力租赁停滞了。现在NV推出H20以后,可以组建算力中心、算力租赁中心。可以通过NVLINK、IB网络架构,使用多张H20,多个基于H20的AI服务器,搭建数据中心。大部分算力公司是基于cuda架构的,H20的出现会帮助算力租赁中心缓解数据中心搭建的缺卡情况。


Q:是不是可以理解为缓解算力的短缺,限制算力的涨价,对算力租赁公司偏利空?

A:算力公司来讲,是利空的状态。算力租赁行业对卡的依赖性很强,没有生存的价值。


Q:H20可以保留NVLINK,此前带宽要求不影响了吗?

A:限制A\H100时候,有限制网络互联带宽。但是现在11月份对H800禁令来看,取消带宽限制。这是美国政府的问题,如何既不给高端卡,但是不切断业务来往,买更多的卡,达到A\H100的性能。NV会对NVLINK卡间互联做文章,堆叠卡提升性能,是一个好的商业模式。


Q:H20组成集群的性能与HW的比较?

A:服务器卡间瓶颈,服务器间瓶颈。卡间互联910B的互联带宽是H20的一半,卡间互联性能下降一半。服务器间互联,英伟达有一分半IB交换机,没有替代解决方案。国内是400、800G集群交换机,算力损耗比较大。


Q:昇腾卡的性能对标A100,软件方面差距在哪里?

A:1)软件方面,商用的软件方面,基本的高端软件都是海外的软件公司。国内公司做兼容性适配是很困难的,NV的出卡之前会做相应性能兼容性测试与调优,所以NV在销售平台上使用方面是最好的。

2)国内卡的客户在互联网公司,他们不会用商业软件,是开源软件做开发,因为每个互联网公司商用方式不同,会做一些开发。他们用互联网的自研平台,迁移适配到国内的卡方面,适配成本迁移成本比较低。大家对互联网行业很关注,国内芯片行业对其也很关注,因为切入NV中,互联网是最容易切入的,没有商业软件的影响,都是自研。软件开发周期比硬件长得多。


Q:17号禁令下单之后,会有H20订单的转换吗?还是再次重新下单呢?

A:禁令以后得订单取消掉了,NV的取消。所以H20的订单是重新来的,不能同等替代。


Q:阉割版上市有用吗?客户端需要4多久业务适配?

A:英伟达的卡在于互联网公司,适配到小批量-大批量,需要半年时间,从引入测试到小批量是半年。卡的阶段是英伟达的设计完成,自身做检测,但没有下方代工厂商,交付给互联网引入测试,下方给服务器代工厂小批量生产调试,再做小批量供应,与互联网同步,半年采购。


Q:大家从训练模型的角度,到底是看INT8还是看FP16甚至是FP32,感觉说法很多,我们评判国内外的卡主要是看哪个指标的算力呢?

Q:主要是FP32与FP64,FP16是国内由于设计工艺原因,没办法达到,真正看浮点运算,还是FP32与FP64。英伟达基本不会做FP16浮点运算参数。国内模型框架,FP16还是可以用的,但还是一旦训练参数激增,就是FP32与FP64。


Q:相对H100等先进芯片,NV变通方案会对成本上升多少呢?

A:运营成本上升会与卡的采购量上升成正比的。以一个通俗例子来看,H100的卡的运营成本,与H800的成本不同,空间、功耗、人员费用方面,卡的费用都是很高的。H20比H100功耗有一些下降,但是比A100提升不少,通过H20来看,未来大批量使用的成本提升A100的3-4倍,比H100低一些。


Q:H20使用液冷方案吗?

A:H20是风冷,液冷还是H100,750w功耗。H20加了2-3张卡,功耗是A100的3-4倍。


Q:H20组网会比原先的H800组网增加功耗及散热需求吗?

A:H20的散热会低于H800,因为算力、功耗低,散热会低的。


Q:现在英伟达有了合规产品,但是由于单卡算力降下,是不是意味着同样算力集群需要更多的服务器?

A:会的,H20留下很多带宽的原因,让国内的用户实现一些堆叠。


Q:假设有足够买卡资源和不考虑能耗,基于H20算力集群算力能否达到基于H100算力集群算力?

A:可以的。

免责声明:文章来源网络及其他媒体平台,转载目的在于传递更多信息,仅代表作者个人观点,不确保文章的准确性,如有侵犯版权请告知,我们将在24小时内删除!

 

北京汉深流体技术有限公司 Hansen Fluid
丹佛斯签约中国经销商 Danfoss Authorized Distributor

地址:北京市朝阳区望京街10号望京SOHO塔1C座2115室
邮编:100102
电话:010-8428 2935 , 8428 3983 , 13910962635
手机:15801532751,17310484595 ,13910122694
13011089770,15313809303
Http://www.hansenfluid.com
E-mail:sales@cnmec.biz

传真:010-8428 8762

京ICP备2023024665号
京公网安备 11010502019740

Since 2007 Strong Distribution & Powerful Partnerships