智能体工程核心：Karpathy 定调的智能体研发框架与技术难点

2025年6月，旧金山首届YCAIStartupSchool的讲台上，AndrejKarpathy用一场39分钟的演讲，给狂热的智能体（Agent）赛道浇了一盆冷水，同时又点燃了一把更持久的火。

这位OpenAI联合创始人、特斯拉前AI总监，去年因创造”VibeCoding”一词而意外成为流行文化符号的顶尖工程师，这次抛出了一个更沉重的判断：”2025年不是智能体元年，这是智能体的十年。”
这不是语义游戏。在Karpathy的框架里，这句话意味着整个行业需要放弃对”全自动代理”的执念，转向一种更艰难但更务实的工程范式：AgenticEngineering（智能体工程）。

一、从VibeCoding到AgenticEngineering：术语背后的范式革命

要理解Karpathy的最新定调，得先回溯他一年前创造的”VibeCoding”。

2024年2月，Karpathy在X平台上随手发了一条推文，描述一种”用自然语言提示AI写代码，然后全选复制、直接运行”的开发方式。他半开玩笑地称这种”凭感觉编程”为”VibeCoding”。没想到这个词迅速病毒式传播，甚至入选柯林斯词典2025年度词汇。

但一年后，Karpathy亲自宣布这个概念”已过时”。

“今天（一年后），通过LLM智能体进行编程正逐渐成为专业人士的默认工作流程，只是需要更多监督和审查，”他在2025年2月的帖子中写道。他指出，VibeCoding的本质是”人写代码，AI辅助”，而新的现实是”人orchestrating（编排）智能体，智能体写代码”。

这就是AgenticEngineering的核心定义：

Agentic：新的默认状态是你99%的时间不直接写代码，而是编排智能体完成任务并充当监督者；
Engineering：强调这背后有艺术、科学和专业技能，是可以学习并精进的领域。

这个术语转换绝非文字游戏。它标志着AI辅助开发从”提示工程”（PromptEngineering）的即兴表演，升级为”智能体工程”（AgenticEngineering）的系统工程。前者关注如何与模型对话，后者关注如何设计目标、约束条件、质量标准和治理流程，让智能体在结构化的人类监督下自主规划、编写、测试和演进代码。

二、LLM作为”新操作系统”：Karpathy的技术世界观

要掌握AgenticEngineering的框架，必须先理解Karpathy对LLM本质的重新定义。

在2025年6月的演讲中，他提出了一个足够炸裂的观点：大语言模型不是工具，而是新一代”智能操作系统”（LLMOS）。

在这个框架下，软件的单位不再是”应用程序”，而是”智能体”，它们有任务、有目标、有执行路径，甚至需要你通过”自治滑块”（AutonomySlider）来划分权限边界，防止它们”搞事情”。

这种世界观解释了为什么Karpathy认为我们正处于”软件3.0″时代：

软件1.0：手写Python规则（如用if-else做情感分析）；
软件2.0：训练神经网络模型（用数据驱动替代人工规则）；
软件3.0：用自然语言Prompt直接完成任务（英语成为编程语言）。

但关键转折在于，软件3.0不是终点，而是通往”智能体十年”的起点。当模型成为操作系统，开发者就不再是”写程序的人”，而是”编排智能的系统架构师”。

三、”人格幽灵”心理学：与易错的AI协作

Karpathy框架中最被低估的部分，是他对LLM”心理学”的深刻洞察。

他多次将大模型描述为”人类心智的幽灵”（PeopleSpirits）或”随机的人类模拟”，这不是诗意的修辞，而是工程警示。

LLM的核心是一个自回归Transformer，通过在海量人类数据上进行token预测训练，它涌现出一种独特的心理特征：在某些方面超越人类，但在许多其他方面难免犯错。它们会幻觉、会过度复杂化问题、会在未澄清假设的情况下直接编码、会缺乏”耐力”在长时间任务中保持一致性。

这种”心理学”特质决定了AgenticEngineering的核心技术难点：如何与易错的协作者高效协作？

Karpathy的解决方案是”部分自主+人类监督”的混合架构，他用”钢铁侠战衣”而非”钢铁侠机器人”作为隐喻：

钢铁侠机器人：全自动代理，你一句话说完，AI完成所有任务、决策、反馈、部署，这是当前的神话，而非现实；
钢铁侠战衣：增强版的你，AI帮你生成初稿、汇总数据、完成例行任务，但方向盘还在你手上。

这种”辅助型代理系统”（PartialAutonomyApps）的典型代表是Cursor：

自动生成代码diff，供程序员审核；
自动补全提示语和函数调用，但需要人工确认；
设置”自治滑块”控制AI行动范围。

这与TeslaAutopilot的分阶段部署逻辑一脉相承：不是追求一步到位，而是保留人类决策环节，逐步扩展自治边界。

四、四层工作流：Karpathy的实战编码框架

理论框架之外，Karpathy在2025年8月公开了他的个人LLM辅助编码工作流，这是一个可落地的AgenticEngineering实践样本。

他将工作流分为四个层级，按使用频率递减：

第一层：Tab自动补全（75%的使用量）

最基础但最高效的交互方式。写几行代码或注释作为”高带宽”的任务说明，让AI在正确的时间、正确的地点提供上下文感知的建议。这不是AI写完整函数，而是”协作式共创”，你提供意图，AI快速补全。

关键洞察：代码比自然语言更直接，能最小化”沟通开销”。

第二层：高亮修改（15%的使用量）

选中代码片段，要求AI进行特定修改（如”优化这段循环”）。这是比Tab补全更明确的指令，但仍保持快速反馈循环。

第三层：并排助手（10%的使用量）

使用ClaudeCode、Codex等工具进行更复杂的任务，如多文件重构、Bug修复、测试生成。这一层开始涉及真正的”智能体”行为，AI可以自主浏览代码库、执行命令、迭代尝试。

关键洞察：这一层需要”信任但验证”的心态。AI可能持续30分钟不懈地解决问题（远超人类耐力），但也可能陷入错误假设的循环。

第四层：最终前沿（实验性）

完全自主的智能体，能够执行端到端任务。Karpathy坦承这一层仍在探索中，是”智能体十年”需要攻克的堡垒。

这个四层架构的深层含义是：AgenticEngineering不是寻找”一个完美工具”，而是掌握”工具编排”的艺术。开发者需要根据任务复杂度、容错率、时间压力，动态选择适当的自治层级。

五、”智能体优先”的基础设施：被忽视的战场

Karpathy演讲中最具前瞻性的部分，是他对”第三类用户”的提出。

几十年来，数字信息的消费者只有两类：

人类（使用GUI图形界面）；
计算机（使用API应用程序接口）。

现在出现了第三类：智能体，一种行为类似人类的计算机。

这意味着未来的网络和软件必须进行设计思维的根本性转变：不仅要为人类的眼楮（GUI）或机器的解析器（API）设计，还要为AI代理（介于两者之间）设计。

他提出了两个关键基础设施：

1.可读性：llms.txt协议

由JeremyHoward提出的规范，类似于robots.txt，但功能相反，不是告诉爬虫”不要抓取什么”，而是提供一个对LLM友好的Markdown格式网站内容摘要，引导智能体关注最重要的信息。这是让网站知识能被智能体”阅读”的标准化方式。

2.可操作性：MCP（ModelContextProtocol）

让智能体不仅能”读”，还能”做”的协议标准。通过结构化API地图和工具描述，智能体可以理解如何与外部系统交互，从被动问答升级为主动执行。

这些基础设施的缺失，是当前智能体应用难以跨越”演示”到”部署”鸿沟的关键瓶颈。

六、技术难点：为什么这是”十年”而非”一年”？

Karpathy的”十年论”背后，是对AgenticEngineering五大技术难点的清醒认知：

1.可靠性与幻觉控制

LLM的”人格幽灵”特性意味着它们会自信地犯错。如何在保持创造力的同时建立验证机制，是智能体工程的首要挑战。

2.长期记忆与上下文管理

当前LLM的”内存”（上下文窗口）有限且无法持久化。如何让智能体在长时间任务中保持连贯性，需要外部记忆系统与上下文压缩技术的突破。

3.多智能体协作与治理

当多个智能体协同工作时，如何分配角色、解决冲突、确保可审计性，这涉及分布式系统与组织行为学的交叉难题。

4.自治滑块的工程化

如何设计可动态调整的自治级别，让系统能根据任务风险、用户信任度、环境不确定性自动调节，这需要精细的反馈控制机制。

5.基础设施与标准化

从llms.txt到MCP，从AgentExperience（AgentEx）设计范式到AgenticDevOps流程，整个技术栈需要重建。

七、行业启示：智能体工程的新职业图景

Karpathy的框架正在重塑AI研发的角色分工：

对于开发者：从”代码作者”转型为”智能编排师”。核心竞争力不再是语法熟练度，而是上下文管理、提示架构设计、以及”给AI套上缰绳”的艺术。

对于企业：需要建立AgenticEngineering的治理框架，包括智能体目录、可观测性工具、审计日志、以及人机协作的标准作业程序（SOP）。

对于创业者：最大的机会不在于构建”华而不实的智能体演示”，而在于建设让”智能体十年”成为现实的脚手架，记忆系统、验证工具、协作平台、安全沙盒。

八、在过度乐观与过度悲观之间

Karpathy的智能体工程框架，本质上是在两个极端之间寻找务实路径：

过度乐观：相信2025年就会出现全自动的”数字员工”；

过度悲观：认为LLM只是花哨的自动补全，无法承担严肃工程任务。

他的答案是”钢铁侠战衣”，不是替代人类，而是增强人类；不是追求全自动，而是追求”可扩展的半自主”。

在这个框架下，AgenticEngineering的核心竞争力不是让AI更”聪明”，而是让人机协作更”顺畅”，通过精细的自治滑块、可靠的验证循环、以及为智能体设计的基础设施，逐步将”智能体的十年”从愿景变为现实。

正如Karpathy在演讲结尾所说：”我们不仅仅是在使用新工具，更是在构建一种新型的计算机。”

对于所有AI产业从业者而言，理解并掌握AgenticEngineering的框架，将是未来十年技术竞争力的底层操作系统。

Aiii人工智能创研院(Aiii.org.cn)精选文章《智能体工程核心：Karpathy 定调的智能体研发框架与技术难点》文中所述为作者独立观点，不代表Aiii人工智能创研院立场。如有侵权请联系删除。如若转载请注明出处：https://www.aiii.org.cn/208.html

智能体工程核心：Karpathy 定调的智能体研发框架与技术难点