算力开源破局:腾讯 HPC-Ops 如何重塑国内 AI 基础设施共享生态?

2025年初,当DeepSeek以开源姿态震动全球AI圈时,另一场同样关键的”开源”正在腾讯内部悄然酝酿。一个月后,腾讯混元AI Infra团队将名为HPC-Ops的生产级算子库推上GitHub——这不是一次例行的技术发布,而是国内大厂首次将支撑千亿级参数模型推理的底层”发动机”彻底开源。

在H20显卡上跑大模型,曾是无数国内AI团队的隐痛。当国际主流算子库FlashInfer、DeepGEMM纷纷为H800训练卡优化时,手握H20的企业只能忍受性能打折的窘境。腾讯开源HPC-Ops的潜台词很直白:与其等待适配,不如重新定义规则。

一、被忽视的”卡脖子”环节

大模型推理的算力焦虑,往往藏在光鲜的模型参数背后。

一个典型的矛盾是:训练阶段可以堆H800追求极致算力,但推理部署必须考虑成本。H20作为英伟达特供中国市场的推理卡,算力规格与H800截然不同——内存带宽更高但算力密度更低,这导致为H800优化的算子库在H20上”水土不服”,硬件峰值性能利用率常常不足60%。

更棘手的是工程门槛。现有开源算子库如TensorRT-LLM、FlashAttention虽然性能优异,但代码封装复杂、抽象层级过高。一位一线算法工程师曾吐槽:”想改个量化策略,得先读懂几万行CUDA代码,这根本不是普通团队能玩的。”

结果就是:硬件卡脖子,软件也卡脖子。 当业务侧急需Blockwise FP8量化、投机采样等加速技术时,底层算子的缺失让这些优化沦为纸上谈兵。

腾讯混元团队对此感受颇深。支撑微信、腾讯元宝等C端产品的推理服务,他们既要应对亿级用户的并发洪峰,又要在H20集群上榨取每一分算力。HPC-Ops的诞生,本质上是一份”生产环境血泪史”的技术结晶。

二、从”自研武器”到”开源基建”

HPC-Ops的开源之所以引发业内关注,在于它打破了”大厂自研=封闭护城河”的惯性。

这个算子库的核心价值可以用三组数据概括:混元模型推理QPM(每分钟查询数)提升30%DeepSeek模型QPM提升17%,单算子性能最高较现有方案提升2.22倍。 在BF16精度Decode场景下,其Attention算子相比FlashInfer提速2.22倍;GroupGEMM在中小Batch场景下较DeepGEMM快1.88倍;FusedMoE相比TensorRT-LLM提升1.49倍。

这些数字背后是一套从0构建的技术逻辑:

硬件适配层面,HPC-Ops完全基于CUDA和CuTe手写,针对H20的微架构特性(如SM90指令集、内存层次结构)做深度适配。团队放弃了”一套代码适配所有卡”的偷懒做法,转而在指令级做精细调度——比如通过调整Warp-level的内存访问模式,将H20的高带宽优势充分释放。

工程架构层面,它提供了比主流库更轻量的抽象。开发者用几百行代码就能构建SOTA级算子,而非陷入CUTLASS的模板迷宫。这种”低门槛高性能”的设计,让量化算法研究者可以专注于算法本身,而非CUDA编程细节。

生态兼容层面,HPC-Ops原生支持vLLM、SGLang等主流推理框架,提供BF16、FP8等多精度量化方案。这意味着企业无需重构现有架构,即可平滑迁移获得性能增益。

腾讯混元AI Infra团队在知乎上坦言:”我们尽可能遵照最朴素的CuTe写法,清晰呈现调度流水线。”这种”不炫技”的务实风格,反而降低了社区贡献的门槛。

三、开源背后的生态野心

HPC-Ops的开源时机,恰逢国内AI基础设施的转折窗口。

2024年,腾讯全年资本开支达767.6亿元,同比增长221%,创历史新高。巨额投入不仅用于买卡建数据中心,更用于沉淀底层技术能力。从混元DiT文生图模型到3D生成模型,腾讯近年在开源领域的动作明显加速——HPC-Ops是其开源版图中最”硬核”的一块拼图,直接切入了AI Infra的底层腹地。

这种策略的转变,与行业大势密切相关:

其一,算力共享已成为必选项。 随着模型参数膨胀和推理成本飙升,单一企业难以承担全栈基础设施投入。开源核心算子库,实质是在构建一个”共建共享”的技术底座,避免行业重复造轮子。

其二,国产算力生态亟需软件突破。 无论是华为昇腾还是其他国产芯片,都面临”有硬件无软件”的困境。HPC-Ops虽然当前针对英伟达H20优化,但其架构设计具备向其他硬件迁移的潜力。腾讯已与华为昇腾等建立”模芯联盟”,未来跨硬件适配值得期待。

其三,开源是技术影响力的放大器。 当DeepSeek以开源模式快速建立生态时,腾讯显然意识到:在AI基础设施层,封闭自研难以形成标准,开放共建才能掌握话语权。

GitHub页面显示,HPC-Ops的Roadmap已规划了稀疏Attention、4bit/8bit混合精度、计算-通信协同优化等方向。这些正是长上下文模型、端侧部署、分布式推理等前沿场景的关键瓶颈。腾讯选择将未竟之功公之于众,既是对社区智慧的借力,也是在定义下一代推理基础设施的技术议程。

四、产业影响:从”各自为战”到”生态协同”

HPC-Ops的开源,可能触发国内AI基础设施的连锁反应。

对中小AI团队而言,这意味着无需自建昂贵的Infra团队,即可获得大厂级的推理优化能力。一家初创公司的CTO算过账:使用HPC-Ops后,其H20集群的吞吐量提升30%,相当于节省了30%的硬件采购成本——对于资金紧张的初创企业,这是生死线级别的帮助。

对云服务商而言,这提供了差异化竞争的新抓手。腾讯云可以基于HPC-Ops构建”H20优化版”推理服务,其他云厂商也可集成该算子库提升竞争力。最终受益的是整个算力供给市场的效率提升。

对硬件厂商而言,开源算子库降低了新硬件的适配门槛。当HPC-Ops社区形成规模,国产芯片厂商可以基于开源代码快速完成Kernel移植,而非从零开始说服框架厂商适配。

更深层的意义在于技术标准的重塑。过去,AI基础设施的技术标准由英伟达CUDA生态、Meta的PyTorch、Google的JAX等西方主导。HPC-Ops作为国内首个生产级开源算子库,代表了中国厂商从”应用层创新”向”基础设施层创新”的跃迁。当越来越多的开发者基于HPC-Ops构建应用,中国团队在AI底层技术栈的话语权将实质性增强。

五、挑战与展望

当然,HPC-Ops的开源之路并非没有挑战。

社区治理是首要考验。从GitHub页面看,目前PR(Pull Request)数量尚处早期,如何吸引外部开发者持续贡献、建立健康的开源治理机制,需要腾讯投入更多资源。

硬件绑定风险也需警惕。当前HPC-Ops深度优化H20,虽然短期内解决了燃眉之急,但过度依赖单一硬件架构可能限制其长期生命力。向国产芯片的迁移进度,将决定其能否真正成为”国民级”基础设施。

生态竞争同样激烈。DeepSeek、阿里通义、百度飞桨等团队都在推进各自的推理优化方案,HPC-Ops需要在性能、易用性、社区活跃度上持续证明自身优势。

但无论如何,HPC-Ops的开源标志着国内AI产业的一个重要转向:从模型层面的”开源竞赛”,深入到基础设施层的”共建共享”。 当算力成为AI时代的水电煤,腾讯选择将”水管电路”的设计图纸公之于众,这既是技术自信的体现,也是生态格局的谋篇。

未来几个月,随着更多开发者涌入GitHub仓库,HPC-Ops能否从”腾讯的算子库”进化为”行业的算子库”,将取决于社区的集体智慧。但至少,它已经成功地将一个问题抛给了整个行业:在AI基础设施的构建上,我们是选择重复造轮子,还是共同造一艘更大的船?

答案,或许就藏在那些正在下载、测试、提交PR的开发者指尖。

腾讯HPC-Ops GitHub地址:https://github.com/Tencent/hpc-ops

 

Aiii人工智能创研院

Aiii人工智能创研院(Aiii.org.cn)精选文章《算力开源破局:腾讯 HPC-Ops 如何重塑国内 AI 基础设施共享生态?》文中所述为作者独立观点,不代表Aiii人工智能创研院立场。如有侵权请联系删除。如若转载请注明出处:https://www.aiii.org.cn/148.html

(1)
打赏 微信小程序 微信小程序 微信小助理 微信小助理
上一篇 2026年2月11日 下午4:57
下一篇 2026年2月10日 上午11:17

相关推荐

发表回复

登录后才能评论
小编
小编
分享本页
返回顶部