华为新AI芯片上市：国内唯一支持FP4，算力是H20近三倍 2026-03-21

街友86424228 · 发表于 2026-3-21 15:51:47

马上注册，结交更多街友，享用更多功能，让你轻松玩转华人街。

您需要登录才可以下载或查看，没有帐号？快速注册

x

华为新AI芯片上市：国内唯一支持FP4，算力是H20近三倍

2026-03-21 18:01:41

（文/观察者网吕栋）

在刚刚结束的华为中国合作伙伴大会2026上，华为副总裁、ICT产品组合管理与解决方案部总裁马海旭宣布，Atlas 350加速卡正式上市销售，该卡搭载的是昇腾950PR处理器。这也标志着，在去年华为首次介绍昇腾950PR之后，该芯片如期上市。

华为昇腾计算业务总裁张迪煊介绍，Atlas 350的单卡算力达到了英伟达H20的2.87倍，是目前国内唯一支持FP4低精度的推理产品；其次内存上，它的HBM容量是H20的1.16倍，达到了112GB，多模态生成速度可以提升60%；第三内存访问颗粒度从512字节减少到128字节，小算子访存效率提升4倍。

支持FP4低精度意味着什么？观察者网梳理发现，英伟达现在想往中国销售的H200就不支持原生FP4，只有更先进的Blackwell才引入。而支持FP4，本质上是用精度换效率的极致推理方案，意味着70B参数的模型仅需35GB显存，单卡即可加载，推理延迟大幅降低，而FP16需要140GB显存。

在现场，昆仑、华鲲振宇、神州鲲泰、长江计算、宝德、软通华方、百信7家核心伙伴首发基于Atlas 350的整机产品，标志着昇腾950代际推理算力正式进入商用阶段。科大讯飞也表示，新一代星火大模型将与昇腾910/950系列算力底座进行适配。

Atlas 350加速卡图源：观察者网

观察者网在展台上看到，Atlas 350的FP4精度算力为1.56P，带宽达到了1.4TB/s；功耗达到了600W，是H20的1.5倍。

去年华为在全联接大会上介绍，昇腾950系列分为昇腾950PR和昇腾950DT，前者主要面向Prefill和推荐场景，它采用的是华为自研低成本HBM，HiBL 1.0，相比高性能、高价格的HBM3e/4e，能大大降低推理Prefill阶段和推荐业务的投资。

从单卡指标来看，昇腾950PR与英伟达H20掰掰手腕应该不成问题，而在FP8/FP16算力以及显存带宽上，与H200仍存一定差距，其600W的功耗指标，也已十分接近H200的700W。

但在训练场景，随着模型参数的规模越来越大，比较单卡的性能指标意义已经有限，华为也顺势提出了超节点战略。在今年的巴展上，华为面向全球展示了Atlas 950超节点，它最大支持8192张昇腾950DT卡通过“灵衢”全光互联，即便与英伟达计划2027年上市的NVL576相比，Atlas 950超节点各方面依然有优势。

在此次合作伙伴大会的昇腾人工智能伙伴峰会上，清华大学计算机系教授、昇腾荣誉顾问郑纬民表示，超节点凭借其超高带宽、超低时延，以及内存统一编址等核心特点，已成为推动AI技术发展的关键力量，正逐步成为AI基础设施建设的新常态。

他还提到，超节点技术已在互联网、电信、制造等行业落地应用。实践证明，唯有具备内存统一编址能力的超节点，才能真正实现算力的Scale-Up扩展。超级点让中国算力具备了支撑世界级大模型的能力，推动我国AI算力从技术跟随迈向架构引领。

图源：观察者网

技术突破只是第一步，真正的挑战在于生态持续发展建设。马海旭在会上表示，2025年8月5号，华为正式明确昇腾全量软件开源开放。截止目前，CANN等软件已完成架构解耦，安装包从8个拆分为29个，支持开发者按需使用，编译效率提升58%。

“我们还将全流程的支持和贡献三方开源生态，从算子编程框架Trion到AI框架PyTorch，再到训推加速引擎FSDP、vLLM等，目前已累计支持了50多个三方开源社区和项目，贡献了650多个关键特性。匹配伙伴开发者的使用习惯的同时，让大家更好的基于昇腾实现创新落地。今年，我们还将持续提升软件易用性，进一步优化开箱性能，从易用全面走向好用。”他在演讲中说道。

为了体现昇腾的易用性，张迪煊还提到了智谱的例子。他表示，智谱基于昇腾在3个月时间里，完成多模态大模型GLM-Image的训练，这个模型创新采用自回归加扩散的混合架构，在开源不到24小时内，登顶全球最大开源社区Hugging Face的Trending榜单，证明了昇腾可以训练出世界级领先的大模型。

在当下，人工智能正快速融入每个人的工作和生活中。今年春节期间，平均每隔1.5天就有一个新模型发布，模型能力也越来越强，比如Seedance2.0可提供、专业级视频生成；应用层面，OpenClaw引爆全球Agentic AI发展，实现AI应用从“理解与建议”到“感知与执行”的转变，短短几周几乎超越Linux三十年的成就，已成为最受欢迎的开源项目，推动AI算力需求高速增长。

图源：观察者网

但从碎片化场景来看，也并不是每家企业都需要巨无霸算力系统，对于万亿参数大模型训练，可能需要384卡、768卡，甚至更大的规模。而对于更广大的企业，8卡满足基础推理、小规模训练，成本可控、运维简单；64卡突破性能瓶颈，适配中大型训练，成本远低于数百卡、千卡，运维难度也在可承受范围内。

华为也注意到了更多算力档位的需求。张迪煊表示，针对不同规模大模型，昇腾产品实现了分级分档升级：面向百亿级模型推出A2标卡，内存带宽达业界1.8倍；面向千亿级模型提供单机服务器，算力为业界2.3倍；面向万亿级模型采用双机超节点服务器，灵衢直连可部署T级模型，整机算力达业界3.78倍。

当下“养虾”正成为热潮，再度激起了对一体机的需求。马海旭等人在会上透露，过去一个多月已有10几家伙伴推出了基于昇腾的Claw一体机，支撑了100多客户完成基于openClaw的Agent应用开发。截至目前，昇腾已联合伙伴打造400多款行业一体机，服务2700多家客户，占据国内一体机市场80%以上份额。

技术先进性和生态成熟度，最终需要市场来验证。根据Bernstein Research预测，以收入计算，预计2026年华为在中国AI加速器市场的份额将提升到50%，英伟达受产品禁售影响或将降至8%，AMD升至12%，海光提升到8%，寒武纪升至9%，摩尔线程、昆仑芯、沐曦股份和壁仞科技等处于1%-3%的位置。

来自: 华人街iPhone版

欢迎您首次访问华人街请选择您所在国家进行切换：	法国	意大利	西班牙	英国	日本	德国	罗马尼亚
欢迎您首次访问华人街请选择您所在国家进行切换：	其他国家: 阿尔及利亚瑞典奥地利荷兰比利时匈牙利波兰葡萄牙捷克瑞士希腊丹麦加盟华人街

华为新AI芯片上市：国内唯一支持FP4，算力是H20近三倍 2026-03-21

马上注册，结交更多街友，享用更多功能，让你轻松玩转华人街。

浏览过的版块

联系华人街

扫描苹果APP

扫描安卓APP