当算力成本成为大模型商业化的生死线,一家以”送外卖”闻名的公司,正在用工程思维重构AI基础设施的底层逻辑。
2025年初,美团大模型团队LongCat放出一项名为LoZA(LongCatZigZagAttention)的技术,在开发者社区引发连锁反应。这项稀疏注意力机制能让模型处理百万级上下文(1MContext)的推理成本直降90%,被海外开发者戏称为”显存救星”。
这不是一次简单的算法调优,而是美团在AI赛道上的一次关键卡位——当行业还在纠结模型参数规模时,他们已经将战场转向了”每token成本”的精细化运营。
一、注意力机制的”富贵病”:为什么长文本这么贵?
要理解LoZA的价值,得先看清楚大模型的”阿喀琉斯之踵”。
Transformer架构的核心是自注意力机制(Self-Attention),它让模型能捕捉文本中任意两个词之间的关联。但这种”全连接”的优雅设计有个致命缺陷:计算复杂度与序列长度的平方成正比(O(N²))。
简单来说,处理1000个token的文本,注意力计算需要100万次操作;但当长度扩展到100万token(约等于一套《三体》三部曲的文本量),计算量会暴增至万亿级别。这不仅意味着更长的推理时间,更代表着显存占用的指数级攀升——对于商业部署而言,这几乎是不可承受之重。
美团LongCat团队的技术报告揭示了一个尴尬现实:在标准全注意力机制下,处理128K上下文的解码速度已经让人难以忍受,更别提百万级长文本的实时交互需求。
而LoZA的解题思路,不是让模型”更努力”,而是让它”更聪明”。
二、ZigZag架构:在精简与性能之间走钢丝
LoZA的核心创新是一种被称为ZigZag(之字形)的层级交错结构。
传统稀疏注意力往往面临一个两难困境:过度稀疏会导致模型”变笨”,丢失长距离依赖能力;保留太多连接又无法解决计算瓶颈。美团工程师的解法颇具工程智慧——让模型”分层思考”。
具体实现上,LoZA将Transformer层进行交错改造:约50%的层替换为轻量级的流式稀疏注意力(SSA),剩余层保留全注意力能力。SSA的计算复杂度是线性的O(L·S),其中S为固定稀疏窗口大小(1024token),远低于全注意力的O(L²)。
这种设计的精妙之处在于信息传播路径的重构。虽然单层是稀疏的,但通过层间的ZigZag连接,信息仍能在多个层级间形成全局传播路径。类比人类阅读长文档时的行为:我们不会逐字记住每个细节,而是通过目录、标题、段落首句等”锚点”建立整体认知,同时在关键章节深入精读——LoZA的架构正是模拟这种”抓大放小”的认知策略。
更关键的是,这种改造无需从零训练模型。在中期训练阶段即可完成架构迁移,这意味着现有模型资产的平滑升级成为可能,而非推倒重来的昂贵赌博。
三、数据说话:90%成本削减背后的商业逻辑
技术报告中的基准测试数据,揭示了这项创新的商业潜力:
速度维度:在128K上下文场景下,解码速度提升10倍;256K场景下,预加载(Prefill)速度提升50%,解码阶段算力节省30%。这意味着同样的硬件集群,现在能同时处理两倍以上的长文本任务。
性能维度:在MRCR(多轮对话推理)测试中,LoZA版本不仅追平了原版LongCat-Flash,甚至在部分指标上反超同样支持1M上下文的Qwen-3模型。这打破了”稀疏=性能损失”的行业偏见。
成本维度:实现百万级上下文推理成本削减90%,这对企业级应用的冲击是颠覆性的。想象一下,原本需要高端GPU集群才能运行的法律文档分析、金融报告解读、代码库理解等场景,现在可能只需要中端硬件即可流畅支持。
美团的工程团队没有止步于算法层面。他们同步开源了LongCat-Flash-Thinking-ZigZag模型,将稀疏注意力与推理模型(ReasoningModel)结合。在AgenticSearch(智能体搜索)和工具调用场景中,这种架构能有效控制”思考链”过长带来的延迟爆炸问题。
四、从外卖到AI:美团的工程方法论迁移
一个有趣的问题是:为什么美团能在基础模型架构层面做出创新?
答案或许藏在公司的基因里。作为日均处理数千万订单的本地生活平台,美团对”高并发、低成本、低延迟”的系统优化有着近乎偏执的追求。从外卖调度算法到即时配送网络,从推荐系统到客服机器人,工程效率一直是其核心竞争力的底座。
这种工程思维被平移到了大模型研发中。翻看LongCat系列的技术报告,你会发现大量”系统-算法协同设计”的影子:
- Shortcut-connectedMoE(ScMoE):通过跨层快捷连接重叠计算与通信,解决专家并行(ExpertParallelism)的通信瓶颈;
- SplitKV-and-Combine策略:优化KV缓存的合并内核,将延迟降低50%;
- 程序化依赖启动(PDL)技术:允许依赖内核早期触发,消除流水线间隙。
这些优化并非孤立的技巧,而是围绕一个核心目标的系统性工程:让5600亿参数的MoE模型,在实际部署中跑得像小模型一样快。
LoZA正是这一方法论在注意力机制层面的延伸。当行业还在比拼模型在榜单上的分数时,美团已经悄然将竞争维度拉向了”单位token成本下的综合效能”——这恰恰是AI应用大规模商业化的关键指标。
五、行业启示:稀疏化会成为主流吗?
LoZA的发布恰逢其时。2024-2025年,大模型行业正经历从”训练竞赛”向”推理优化”的战略转型:
- DeepSeek以极致的工程优化证明了小团队的高效潜力;
- Google的Gemini系列在长文本处理上持续发力;
- Anthropic的Claude以20万token上下文窗口作为差异化卖点。
稀疏注意力并非全新概念,但美团的贡献在于证明了”平滑过渡”的可行性——不需要抛弃预训练投入,不需要牺牲核心性能,就能实现数量级的效率提升。这对于拥有大量存量模型资产的企业极具吸引力。
技术报告透露,团队正在探索动态稀疏比例机制,即根据输入内容的复杂度自动调整注意力稀疏度。这将进一步模糊”快思考”与”慢思考”的边界,让模型像人类一样,对简单问题快速反应,对复杂问题深度聚焦。
六、当”降本增效”成为技术创新的主旋律
美团LoZA的发布,标志着中国大模型竞争进入了一个更成熟的阶段。行业关注点从”谁能训练更大的模型”转向”谁能让模型跑得更经济、更稳定、更可控”。
对于开发者而言,这意味着长文本应用的技术门槛正在快速降低。百万级上下文不再是顶级实验室的专属玩具,而可能成为中小企业都能调用的基础能力。
对于行业而言,这预示着一场”注意力机制稀疏化”的技术浪潮。正如CNN时代的模型压缩、RNN时代的梯度优化,稀疏注意力可能成为Transformer架构演进的关键篇章。
而美团,这家常被低估的技术公司,正用一行行开源代码证明:在AI基础设施的深水区,工程能力的厚度,终将转化为技术创新的速度。
Aiii人工智能创研院(Aiii.org.cn)精选文章《稀疏注意力机制创新:美团新技术如何提升大模型的效率与成本控制?》文中所述为作者独立观点,不代表Aiii人工智能创研院立场。如有侵权请联系删除。如若转载请注明出处:https://www.aiii.org.cn/206.html

微信小程序