此操作将在您下回登录时自动记录您的这次国家选择。如需重新切换,可通过切换国家完成。
查看: 147|回复: 0

华为新AI芯片上市:国内唯一支持FP4,算力是H20近三倍 2026-03-21

[复制链接]
发表于 6 小时前 来自手机 | 显示全部楼层 |阅读模式

马上注册,结交更多街友,享用更多功能,让你轻松玩转华人街。

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
华为新AI芯片上市:国内唯一支持FP4,算力是H20近三倍

2026-03-21 18:01:41


(文/观察者网 吕栋)

在刚刚结束的华为中国合作伙伴大会2026上,华为副总裁、ICT产品组合管理与解决方案部总裁马海旭宣布,Atlas 350加速卡正式上市销售,该卡搭载的是昇腾950PR处理器。这也标志着,在去年华为首次介绍昇腾950PR之后,该芯片如期上市。

华为昇腾计算业务总裁张迪煊介绍,Atlas 350的单卡算力达到了英伟达H20的2.87倍,是目前国内唯一支持FP4低精度的推理产品;其次内存上,它的HBM容量是H20的1.16倍,达到了112GB,多模态生成速度可以提升60%;第三内存访问颗粒度从512字节减少到128字节,小算子访存效率提升4倍。

支持FP4低精度意味着什么?观察者网梳理发现,英伟达现在想往中国销售的H200就不支持原生FP4,只有更先进的Blackwell才引入。而支持FP4,本质上是用精度换效率的极致推理方案,意味着70B参数的模型仅需35GB显存,单卡即可加载,推理延迟大幅降低,而FP16需要140GB显存。

在现场,昆仑、华鲲振宇、神州鲲泰、长江计算、宝德、软通华方、百信7家核心伙伴首发基于Atlas 350的整机产品,标志着昇腾950代际推理算力正式进入商用阶段。科大讯飞也表示,新一代星火大模型将与昇腾910/950系列算力底座进行适配。



Atlas 350加速卡 图源:观察者网

观察者网在展台上看到,Atlas 350的FP4精度算力为1.56P,带宽达到了1.4TB/s;功耗达到了600W,是H20的1.5倍。

去年华为在全联接大会上介绍,昇腾950系列分为昇腾950PR和昇腾950DT,前者主要面向Prefill和推荐场景,它采用的是华为自研低成本HBM,HiBL 1.0,相比高性能、高价格的HBM3e/4e,能大大降低推理Prefill阶段和推荐业务的投资。

从单卡指标来看,昇腾950PR与英伟达H20掰掰手腕应该不成问题,而在FP8/FP16算力以及显存带宽上,与H200仍存一定差距,其600W的功耗指标,也已十分接近H200的700W。

但在训练场景,随着模型参数的规模越来越大,比较单卡的性能指标意义已经有限,华为也顺势提出了超节点战略。在今年的巴展上,华为面向全球展示了Atlas 950超节点,它最大支持8192张昇腾950DT卡通过“灵衢”全光互联,即便与英伟达计划2027年上市的NVL576相比,Atlas 950超节点各方面依然有优势。

在此次合作伙伴大会的昇腾人工智能伙伴峰会上,清华大学计算机系教授、昇腾荣誉顾问郑纬民表示,超节点凭借其超高带宽、超低时延,以及内存统一编址等核心特点,已成为推动AI技术发展的关键力量,正逐步成为AI基础设施建设的新常态。

他还提到,超节点技术已在互联网、电信、制造等行业落地应用。实践证明,唯有具备内存统一编址能力的超节点,才能真正实现算力的Scale-Up扩展。超级点让中国算力具备了支撑世界级大模型的能力,推动我国AI算力从技术跟随迈向架构引领。



图源:观察者网

技术突破只是第一步,真正的挑战在于生态持续发展建设。马海旭在会上表示,2025年8月5号,华为正式明确昇腾全量软件开源开放。截止目前,CANN等软件已完成架构解耦,安装包从8个拆分为29个,支持开发者按需使用,编译效率提升58%。

“我们还将全流程的支持和贡献三方开源生态,从算子编程框架Trion到AI框架PyTorch,再到训推加速引擎FSDP、vLLM等,目前已累计支持了50多个三方开源社区和项目,贡献了650多个关键特性。匹配伙伴开发者的使用习惯的同时,让大家更好的基于昇腾实现创新落地。今年,我们还将持续提升软件易用性,进一步优化开箱性能,从易用全面走向好用。”他在演讲中说道。

为了体现昇腾的易用性,张迪煊还提到了智谱的例子。他表示,智谱基于昇腾在3个月时间里,完成多模态大模型GLM-Image的训练,这个模型创新采用自回归加扩散的混合架构,在开源不到24小时内,登顶全球最大开源社区Hugging Face的Trending榜单,证明了昇腾可以训练出世界级领先的大模型。

在当下,人工智能正快速融入每个人的工作和生活中。今年春节期间,平均每隔1.5天就有一个新模型发布,模型能力也越来越强,比如Seedance2.0可提供、专业级视频生成;应用层面,OpenClaw引爆全球Agentic AI发展,实现AI应用从“理解与建议”到“感知与执行”的转变,短短几周几乎超越Linux三十年的成就,已成为最受欢迎的开源项目,推动AI算力需求高速增长。



图源:观察者网

但从碎片化场景来看,也并不是每家企业都需要巨无霸算力系统,对于万亿参数大模型训练,可能需要384卡、768卡,甚至更大的规模。而对于更广大的企业,8卡满足基础推理、小规模训练,成本可控、运维简单;64卡突破性能瓶颈,适配中大型训练,成本远低于数百卡、千卡,运维难度也在可承受范围内。

华为也注意到了更多算力档位的需求。张迪煊表示,针对不同规模大模型,昇腾产品实现了分级分档升级:面向百亿级模型推出A2标卡,内存带宽达业界1.8倍;面向千亿级模型提供单机服务器,算力为业界2.3倍;面向万亿级模型采用双机超节点服务器,灵衢直连可部署T级模型,整机算力达业界3.78倍。

当下“养虾”正成为热潮,再度激起了对一体机的需求。马海旭等人在会上透露,过去一个多月已有10几家伙伴推出了基于昇腾的Claw一体机,支撑了100多客户完成基于openClaw的Agent应用开发。截至目前,昇腾已联合伙伴打造400多款行业一体机,服务2700多家客户,占据国内一体机市场80%以上份额。

技术先进性和生态成熟度,最终需要市场来验证。根据Bernstein Research预测,以收入计算,预计2026年华为在中国AI加速器市场的份额将提升到50%,英伟达受产品禁售影响或将降至8%,AMD升至12%,海光提升到8%,寒武纪升至9%,摩尔线程、昆仑芯、沐曦股份和壁仞科技等处于1%-3%的位置。

来自: 华人街iPhone版
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

联系华人街

法国公司:Sinocom sarl
地址:48 Rue de Turbigo,
75003 Paris,France
联系电话:(0033)-(0)144610523
意大利分公司:Sinocom Italia Srl
地址:Via Niccolini 29,
20154 Milano, Italia
联系邮箱:[email protected]

扫描苹果APP

扫描安卓APP

QQ|Archiver|手机版|华人街 huarenjie.com

GMT+1, 2026-3-21 22:33 , Processed in 0.053791 second(s), Total 10, Slave 8 queries , Gzip On, MemCache On.

管理COOKIES