英伟达Blackwell GPU被爆散热缺陷,预计再次延期交付?
据《The Information》11月18日消息,英伟达新一代 Blackwell GPU 在高容量服务器机架中存在严重的过热问题。
Blackwell GPU 专为 AI 和高性能计算(HPC)所设计,但在配置可搭载 72 个处理器的服务器中出现过热问题,不符合AI训练和 HPC 的高功耗需求。
过热问题可能会导致在AI训练、高性能计算的过程中出现一系列风险:
- 性能降低:为了防止硬件损坏,服务器可能会自动降低GPU的工作频率,这会直接影响其处理能力,进而影响AI训练的效果。
- 硬件损坏:长时间过热可能会导致GPU和其他电子元件损坏。
- 数据丢失:服务器可能会因为温度过高自动关机保护,导致正在处理的数据丢失,这对于AI训练、AI推理简直就是灾难!
- 运行波动:过热问题可能导致服务器运行不稳定,频繁重启或者出现系统错误。
因此过热问题不能轻视,这迫使英伟达多次修改机架设计,设计调整必然延缓了 Blackwell GPU 的交付,使得谷歌、Meta和微软等英伟达的主要客户对能否按计划部署 Blackwell 服务器训练自家的超级AI模型感到担忧。
英伟达在今年GTC人工智能大会推出的 Blackwell GPU 作为人工智能数据中心的关键组成部分,延期发货可能对许多大模型开发商、数据中心云服务提供商造成不小的影响,AI模型训练和深度学习推理无法如期推进。好在中小企业或个人用户可优先选择算力租赁平台,例如通过算力云平台在云端访问GPU服务器实现AI模型的训练和推理。
目前算力云平台已在多所城市部署数据中心,为海内外高校、企业和个人用户提供算力租用服务。平台目前有 RTX 4090/3090/3080/2080Ti 充足的显卡在多地域可租用,在杭州、西安、北京、成都、济南等城市还有专门适用于深度学习推理的 NVIDIA Tesla T4 和 NVIDIA V100S 可租用。11月5日到12月12日,算力云推出朋友圈集赞活动,参与者可获得对应奖励金!高端算力显卡更有限时降价活动,低至75折!
为应对这一难题,英伟达要求供应商调整机架设计,并与合作伙伴一起优化散热系统。
英伟达发言人向记者回应称:“我们正在与领先的云服务提供商合作,将其作为我们工程团队和流程中不可或缺的一部分。工程迭代是正常且符合预期的。将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与我们的客户共同设计。”
英伟达希望通过这种合作,确保最终产品在性能和可靠性方面达到预期,同时加紧解决技术瓶颈。
据悉,修订后的 Blackwell GPU 于今年10月底才进入量产,预计最快明年1月底出货。
上一次,英伟达Blackwell GPU被爆存在“设计缺陷”后待返厂修复,已延迟三个月交付,预估在今年Q4发货。这一次改款GPU再延迟三个月,到明年1月交付,会给AI行业带来多大的影响呢?
以上是算力云今日内容分享,感兴趣的朋友可以多多关注我们。