智能体工程核心:Karpathy 定调的智能体研发框架与技术难点

2025年6月,旧金山首届YCAIStartupSchool的讲台上,AndrejKarpathy用一场39分钟的演讲,给狂热的智能体(Agent)赛道浇了一盆冷水,同时又点燃了一把更持久的火。

这位OpenAI联合创始人、特斯拉前AI总监,去年因创造”VibeCoding”一词而意外成为流行文化符号的顶尖工程师,这次抛出了一个更沉重的判断:”2025年不是智能体元年,这是智能体的十年。”
这不是语义游戏。在Karpathy的框架里,这句话意味着整个行业需要放弃对”全自动代理”的执念,转向一种更艰难但更务实的工程范式:AgenticEngineering(智能体工程)。

一、从VibeCoding到AgenticEngineering:术语背后的范式革命

要理解Karpathy的最新定调,得先回溯他一年前创造的”VibeCoding”。

2024年2月,Karpathy在X平台上随手发了一条推文,描述一种”用自然语言提示AI写代码,然后全选复制、直接运行”的开发方式。他半开玩笑地称这种”凭感觉编程”为”VibeCoding”。没想到这个词迅速病毒式传播,甚至入选柯林斯词典2025年度词汇。

但一年后,Karpathy亲自宣布这个概念”已过时”。

“今天(一年后),通过LLM智能体进行编程正逐渐成为专业人士的默认工作流程,只是需要更多监督和审查,”他在2025年2月的帖子中写道。他指出,VibeCoding的本质是”人写代码,AI辅助”,而新的现实是”人orchestrating(编排)智能体,智能体写代码”。

这就是AgenticEngineering的核心定义:

  • Agentic:新的默认状态是你99%的时间不直接写代码,而是编排智能体完成任务并充当监督者;
  • Engineering:强调这背后有艺术、科学和专业技能,是可以学习并精进的领域。

这个术语转换绝非文字游戏。它标志着AI辅助开发从”提示工程”(PromptEngineering)的即兴表演,升级为”智能体工程”(AgenticEngineering)的系统工程。前者关注如何与模型对话,后者关注如何设计目标、约束条件、质量标准和治理流程,让智能体在结构化的人类监督下自主规划、编写、测试和演进代码。

二、LLM作为”新操作系统”:Karpathy的技术世界观

要掌握AgenticEngineering的框架,必须先理解Karpathy对LLM本质的重新定义。

在2025年6月的演讲中,他提出了一个足够炸裂的观点:大语言模型不是工具,而是新一代”智能操作系统”(LLMOS)。

在这个框架下,软件的单位不再是”应用程序”,而是”智能体”,它们有任务、有目标、有执行路径,甚至需要你通过”自治滑块”(AutonomySlider)来划分权限边界,防止它们”搞事情”。

这种世界观解释了为什么Karpathy认为我们正处于”软件3.0″时代:

  • 软件1.0:手写Python规则(如用if-else做情感分析);
  • 软件2.0:训练神经网络模型(用数据驱动替代人工规则);
  • 软件3.0:用自然语言Prompt直接完成任务(英语成为编程语言)。

但关键转折在于,软件3.0不是终点,而是通往”智能体十年”的起点。当模型成为操作系统,开发者就不再是”写程序的人”,而是”编排智能的系统架构师”。

三、”人格幽灵”心理学:与易错的AI协作

Karpathy框架中最被低估的部分,是他对LLM”心理学”的深刻洞察。

他多次将大模型描述为”人类心智的幽灵”(PeopleSpirits)或”随机的人类模拟”,这不是诗意的修辞,而是工程警示。

LLM的核心是一个自回归Transformer,通过在海量人类数据上进行token预测训练,它涌现出一种独特的心理特征:在某些方面超越人类,但在许多其他方面难免犯错。它们会幻觉、会过度复杂化问题、会在未澄清假设的情况下直接编码、会缺乏”耐力”在长时间任务中保持一致性。

这种”心理学”特质决定了AgenticEngineering的核心技术难点:如何与易错的协作者高效协作?

Karpathy的解决方案是”部分自主+人类监督”的混合架构,他用”钢铁侠战衣”而非”钢铁侠机器人”作为隐喻:

  • 钢铁侠机器人:全自动代理,你一句话说完,AI完成所有任务、决策、反馈、部署,这是当前的神话,而非现实;
  • 钢铁侠战衣:增强版的你,AI帮你生成初稿、汇总数据、完成例行任务,但方向盘还在你手上。

这种”辅助型代理系统”(PartialAutonomyApps)的典型代表是Cursor:

  • 自动生成代码diff,供程序员审核;
  • 自动补全提示语和函数调用,但需要人工确认;
  • 设置”自治滑块”控制AI行动范围。

这与TeslaAutopilot的分阶段部署逻辑一脉相承:不是追求一步到位,而是保留人类决策环节,逐步扩展自治边界。

四、四层工作流:Karpathy的实战编码框架

理论框架之外,Karpathy在2025年8月公开了他的个人LLM辅助编码工作流,这是一个可落地的AgenticEngineering实践样本。

他将工作流分为四个层级,按使用频率递减:

第一层:Tab自动补全(75%的使用量)

最基础但最高效的交互方式。写几行代码或注释作为”高带宽”的任务说明,让AI在正确的时间、正确的地点提供上下文感知的建议。这不是AI写完整函数,而是”协作式共创”,你提供意图,AI快速补全。

关键洞察:代码比自然语言更直接,能最小化”沟通开销”。

第二层:高亮修改(15%的使用量)

选中代码片段,要求AI进行特定修改(如”优化这段循环”)。这是比Tab补全更明确的指令,但仍保持快速反馈循环。

第三层:并排助手(10%的使用量)

使用ClaudeCode、Codex等工具进行更复杂的任务,如多文件重构、Bug修复、测试生成。这一层开始涉及真正的”智能体”行为,AI可以自主浏览代码库、执行命令、迭代尝试。

关键洞察:这一层需要”信任但验证”的心态。AI可能持续30分钟不懈地解决问题(远超人类耐力),但也可能陷入错误假设的循环。

第四层:最终前沿(实验性)

完全自主的智能体,能够执行端到端任务。Karpathy坦承这一层仍在探索中,是”智能体十年”需要攻克的堡垒。

这个四层架构的深层含义是:AgenticEngineering不是寻找”一个完美工具”,而是掌握”工具编排”的艺术。开发者需要根据任务复杂度、容错率、时间压力,动态选择适当的自治层级。

五、”智能体优先”的基础设施:被忽视的战场

Karpathy演讲中最具前瞻性的部分,是他对”第三类用户”的提出。

几十年来,数字信息的消费者只有两类:

  • 人类(使用GUI图形界面);
  • 计算机(使用API应用程序接口)。

现在出现了第三类:智能体,一种行为类似人类的计算机。

这意味着未来的网络和软件必须进行设计思维的根本性转变:不仅要为人类的眼楮(GUI)或机器的解析器(API)设计,还要为AI代理(介于两者之间)设计。

他提出了两个关键基础设施:

1.可读性:llms.txt协议

由JeremyHoward提出的规范,类似于robots.txt,但功能相反,不是告诉爬虫”不要抓取什么”,而是提供一个对LLM友好的Markdown格式网站内容摘要,引导智能体关注最重要的信息。这是让网站知识能被智能体”阅读”的标准化方式。

2.可操作性:MCP(ModelContextProtocol)

让智能体不仅能”读”,还能”做”的协议标准。通过结构化API地图和工具描述,智能体可以理解如何与外部系统交互,从被动问答升级为主动执行。

这些基础设施的缺失,是当前智能体应用难以跨越”演示”到”部署”鸿沟的关键瓶颈。

六、技术难点:为什么这是”十年”而非”一年”?

Karpathy的”十年论”背后,是对AgenticEngineering五大技术难点的清醒认知:

1.可靠性与幻觉控制

LLM的”人格幽灵”特性意味着它们会自信地犯错。如何在保持创造力的同时建立验证机制,是智能体工程的首要挑战。

2.长期记忆与上下文管理

当前LLM的”内存”(上下文窗口)有限且无法持久化。如何让智能体在长时间任务中保持连贯性,需要外部记忆系统与上下文压缩技术的突破。

3.多智能体协作与治理

当多个智能体协同工作时,如何分配角色、解决冲突、确保可审计性,这涉及分布式系统与组织行为学的交叉难题。

4.自治滑块的工程化

如何设计可动态调整的自治级别,让系统能根据任务风险、用户信任度、环境不确定性自动调节,这需要精细的反馈控制机制。

5.基础设施与标准化

从llms.txt到MCP,从AgentExperience(AgentEx)设计范式到AgenticDevOps流程,整个技术栈需要重建。

七、行业启示:智能体工程的新职业图景

Karpathy的框架正在重塑AI研发的角色分工:

对于开发者:从”代码作者”转型为”智能编排师”。核心竞争力不再是语法熟练度,而是上下文管理、提示架构设计、以及”给AI套上缰绳”的艺术。

对于企业:需要建立AgenticEngineering的治理框架,包括智能体目录、可观测性工具、审计日志、以及人机协作的标准作业程序(SOP)。

对于创业者:最大的机会不在于构建”华而不实的智能体演示”,而在于建设让”智能体十年”成为现实的脚手架,记忆系统、验证工具、协作平台、安全沙盒。

八、在过度乐观与过度悲观之间

Karpathy的智能体工程框架,本质上是在两个极端之间寻找务实路径:

过度乐观:相信2025年就会出现全自动的”数字员工”;

过度悲观:认为LLM只是花哨的自动补全,无法承担严肃工程任务。

他的答案是”钢铁侠战衣”,不是替代人类,而是增强人类;不是追求全自动,而是追求”可扩展的半自主”。

在这个框架下,AgenticEngineering的核心竞争力不是让AI更”聪明”,而是让人机协作更”顺畅”,通过精细的自治滑块、可靠的验证循环、以及为智能体设计的基础设施,逐步将”智能体的十年”从愿景变为现实。

正如Karpathy在演讲结尾所说:”我们不仅仅是在使用新工具,更是在构建一种新型的计算机。”

对于所有AI产业从业者而言,理解并掌握AgenticEngineering的框架,将是未来十年技术竞争力的底层操作系统。

 

Aiii人工智能创研院

Aiii人工智能创研院(Aiii.org.cn)精选文章《智能体工程核心:Karpathy 定调的智能体研发框架与技术难点》文中所述为作者独立观点,不代表Aiii人工智能创研院立场。如有侵权请联系删除。如若转载请注明出处:https://www.aiii.org.cn/208.html

(0)
打赏 微信小程序 微信小程序 微信小助理 微信小助理
上一篇 2026年2月11日 下午4:14
下一篇 2026年2月11日 下午4:20

相关推荐

发表回复

登录后才能评论
小编
小编
分享本页
返回顶部