算力开源破局：腾讯 HPC-Ops 如何重塑国内 AI 基础设施共享生态？

2025年初，当DeepSeek以开源姿态震动全球AI圈时，另一场同样关键的”开源”正在腾讯内部悄然酝酿。一个月后，腾讯混元AI Infra团队将名为HPC-Ops的生产级算子库推上GitHub——这不是一次例行的技术发布，而是国内大厂首次将支撑千亿级参数模型推理的底层”发动机”彻底开源。

在H20显卡上跑大模型，曾是无数国内AI团队的隐痛。当国际主流算子库FlashInfer、DeepGEMM纷纷为H800训练卡优化时，手握H20的企业只能忍受性能打折的窘境。腾讯开源HPC-Ops的潜台词很直白：与其等待适配，不如重新定义规则。

一、被忽视的”卡脖子”环节

大模型推理的算力焦虑，往往藏在光鲜的模型参数背后。

一个典型的矛盾是：训练阶段可以堆H800追求极致算力，但推理部署必须考虑成本。H20作为英伟达特供中国市场的推理卡，算力规格与H800截然不同——内存带宽更高但算力密度更低，这导致为H800优化的算子库在H20上”水土不服”，硬件峰值性能利用率常常不足60%。

更棘手的是工程门槛。现有开源算子库如TensorRT-LLM、FlashAttention虽然性能优异，但代码封装复杂、抽象层级过高。一位一线算法工程师曾吐槽：”想改个量化策略，得先读懂几万行CUDA代码，这根本不是普通团队能玩的。”

结果就是：硬件卡脖子，软件也卡脖子。 当业务侧急需Blockwise FP8量化、投机采样等加速技术时，底层算子的缺失让这些优化沦为纸上谈兵。

腾讯混元团队对此感受颇深。支撑微信、腾讯元宝等C端产品的推理服务，他们既要应对亿级用户的并发洪峰，又要在H20集群上榨取每一分算力。HPC-Ops的诞生，本质上是一份”生产环境血泪史”的技术结晶。

二、从”自研武器”到”开源基建”

HPC-Ops的开源之所以引发业内关注，在于它打破了”大厂自研=封闭护城河”的惯性。

这个算子库的核心价值可以用三组数据概括：混元模型推理QPM（每分钟查询数）提升30%，DeepSeek模型QPM提升17%，单算子性能最高较现有方案提升2.22倍。在BF16精度Decode场景下，其Attention算子相比FlashInfer提速2.22倍；GroupGEMM在中小Batch场景下较DeepGEMM快1.88倍；FusedMoE相比TensorRT-LLM提升1.49倍。

这些数字背后是一套从0构建的技术逻辑：

硬件适配层面，HPC-Ops完全基于CUDA和CuTe手写，针对H20的微架构特性（如SM90指令集、内存层次结构）做深度适配。团队放弃了”一套代码适配所有卡”的偷懒做法，转而在指令级做精细调度——比如通过调整Warp-level的内存访问模式，将H20的高带宽优势充分释放。

工程架构层面，它提供了比主流库更轻量的抽象。开发者用几百行代码就能构建SOTA级算子，而非陷入CUTLASS的模板迷宫。这种”低门槛高性能”的设计，让量化算法研究者可以专注于算法本身，而非CUDA编程细节。

生态兼容层面，HPC-Ops原生支持vLLM、SGLang等主流推理框架，提供BF16、FP8等多精度量化方案。这意味着企业无需重构现有架构，即可平滑迁移获得性能增益。

腾讯混元AI Infra团队在知乎上坦言：”我们尽可能遵照最朴素的CuTe写法，清晰呈现调度流水线。”这种”不炫技”的务实风格，反而降低了社区贡献的门槛。

三、开源背后的生态野心

HPC-Ops的开源时机，恰逢国内AI基础设施的转折窗口。

2024年，腾讯全年资本开支达767.6亿元，同比增长221%，创历史新高。巨额投入不仅用于买卡建数据中心，更用于沉淀底层技术能力。从混元DiT文生图模型到3D生成模型，腾讯近年在开源领域的动作明显加速——HPC-Ops是其开源版图中最”硬核”的一块拼图，直接切入了AI Infra的底层腹地。

这种策略的转变，与行业大势密切相关：

其一，算力共享已成为必选项。 随着模型参数膨胀和推理成本飙升，单一企业难以承担全栈基础设施投入。开源核心算子库，实质是在构建一个”共建共享”的技术底座，避免行业重复造轮子。

其二，国产算力生态亟需软件突破。 无论是华为昇腾还是其他国产芯片，都面临”有硬件无软件”的困境。HPC-Ops虽然当前针对英伟达H20优化，但其架构设计具备向其他硬件迁移的潜力。腾讯已与华为昇腾等建立”模芯联盟”，未来跨硬件适配值得期待。

其三，开源是技术影响力的放大器。 当DeepSeek以开源模式快速建立生态时，腾讯显然意识到：在AI基础设施层，封闭自研难以形成标准，开放共建才能掌握话语权。

GitHub页面显示，HPC-Ops的Roadmap已规划了稀疏Attention、4bit/8bit混合精度、计算-通信协同优化等方向。这些正是长上下文模型、端侧部署、分布式推理等前沿场景的关键瓶颈。腾讯选择将未竟之功公之于众，既是对社区智慧的借力，也是在定义下一代推理基础设施的技术议程。

四、产业影响：从”各自为战”到”生态协同”

HPC-Ops的开源，可能触发国内AI基础设施的连锁反应。

对中小AI团队而言，这意味着无需自建昂贵的Infra团队，即可获得大厂级的推理优化能力。一家初创公司的CTO算过账：使用HPC-Ops后，其H20集群的吞吐量提升30%，相当于节省了30%的硬件采购成本——对于资金紧张的初创企业，这是生死线级别的帮助。

对云服务商而言，这提供了差异化竞争的新抓手。腾讯云可以基于HPC-Ops构建”H20优化版”推理服务，其他云厂商也可集成该算子库提升竞争力。最终受益的是整个算力供给市场的效率提升。

对硬件厂商而言，开源算子库降低了新硬件的适配门槛。当HPC-Ops社区形成规模，国产芯片厂商可以基于开源代码快速完成Kernel移植，而非从零开始说服框架厂商适配。

更深层的意义在于技术标准的重塑。过去，AI基础设施的技术标准由英伟达CUDA生态、Meta的PyTorch、Google的JAX等西方主导。HPC-Ops作为国内首个生产级开源算子库，代表了中国厂商从”应用层创新”向”基础设施层创新”的跃迁。当越来越多的开发者基于HPC-Ops构建应用，中国团队在AI底层技术栈的话语权将实质性增强。

五、挑战与展望

当然，HPC-Ops的开源之路并非没有挑战。

社区治理是首要考验。从GitHub页面看，目前PR（Pull Request）数量尚处早期，如何吸引外部开发者持续贡献、建立健康的开源治理机制，需要腾讯投入更多资源。

硬件绑定风险也需警惕。当前HPC-Ops深度优化H20，虽然短期内解决了燃眉之急，但过度依赖单一硬件架构可能限制其长期生命力。向国产芯片的迁移进度，将决定其能否真正成为”国民级”基础设施。

生态竞争同样激烈。DeepSeek、阿里通义、百度飞桨等团队都在推进各自的推理优化方案，HPC-Ops需要在性能、易用性、社区活跃度上持续证明自身优势。

但无论如何，HPC-Ops的开源标志着国内AI产业的一个重要转向：从模型层面的”开源竞赛”，深入到基础设施层的”共建共享”。当算力成为AI时代的水电煤，腾讯选择将”水管电路”的设计图纸公之于众，这既是技术自信的体现，也是生态格局的谋篇。

未来几个月，随着更多开发者涌入GitHub仓库，HPC-Ops能否从”腾讯的算子库”进化为”行业的算子库”，将取决于社区的集体智慧。但至少，它已经成功地将一个问题抛给了整个行业：在AI基础设施的构建上，我们是选择重复造轮子，还是共同造一艘更大的船？

答案，或许就藏在那些正在下载、测试、提交PR的开发者指尖。

腾讯HPC-Ops GitHub地址：https://github.com/Tencent/hpc-ops

Aiii人工智能创研院(Aiii.org.cn)精选文章《算力开源破局：腾讯 HPC-Ops 如何重塑国内 AI 基础设施共享生态？》文中所述为作者独立观点，不代表Aiii人工智能创研院立场。如有侵权请联系删除。如若转载请注明出处：https://www.aiii.org.cn/148.html