热门

从“推理模型”到“AI智能体”：林俊旸谈 Agentic AI 的下一阶段范式

AI资讯2个月前发布 AI工具箱

105 0 0

在 AI 行业围绕 Harness Engineering（脚手架工程） 激烈讨论之际，阿里千问（Qwen）前技术负责人林俊旸发布长文，系统性提出一个关键判断：

大模型的未来，不是更长的推理链，而是“Agentic AI（智能体思维）”。

这不仅是一次技术路线反思，更是对下一代 AI 能力范式的重新定义。

一、AI推理模型的崛起：o1 与 R1 改变了什么？

2025 年上半年，AI 进入“推理模型时代”。

OpenAI o1：证明“思考能力”可以通过强化学习训练
DeepSeek R1：证明推理模型可以被复现并规模化

这一阶段的核心突破在于：

1. 强化学习（RL）成为核心能力放大器

AI 模型开始依赖：

可验证任务（数学 / 编程 / 逻辑）
强反馈信号（正确性 > 表面合理性）

2. 推理计算成为新变量

行业关注点转向：

推理 token 投入
思维链（Chain-of-Thought）长度
推理成本控制

👉 但问题也逐渐显现：
“想得更久”，真的等于“更聪明”吗？

二、Qwen 的关键实验：混合 Thinking 与 Instruct 模式

林俊旸披露了一个重要尝试：

将 Thinking（推理模式） 与 Instruct（指令模式） 合并到同一模型。

理想目标

一个先进模型应具备：

自适应推理能力
动态计算分配
推理强度连续谱（low / medium / high）

实际结果：不理想

出现典型问题：

Thinking 变得冗长、犹豫
Instruct 失去简洁与稳定
成本上升但收益不明显

根本原因：数据分布冲突

两类模式本质不同：

模式	优化目标	行为特征
Instruct	高吞吐、低延迟	简洁、稳定
Thinking	高正确率	深度推理、探索路径

👉 结论：
不是模型结构问题，而是数据与目标函数不一致。

三、为什么“强行融合”往往失败？

很多团队误判了问题所在：

❌ 以为是模型开关问题
❌ 以为是架构统一问题
✅ 实际是 行为分布冲突问题

如果融合粗糙，会导致：

“两头都受损，而不是取长补短”

这也是为什么：

Qwen 后续选择拆分模型（Instruct / Thinking）
企业用户仍偏好 Instruct 模型（稳定、低成本）

四、Anthropic 的启发：让“思考服务于任务”

林俊旸特别提到 Anthropic 的方向：

核心理念：

思考应该由目标工作负载塑造（Thinking shaped by workload）

在 Claude 系列中体现为：

可控推理预算
推理与工具调用交错
面向真实任务（coding / agent workflows）

本质变化

从：

“如何让模型多想”

转向：

“什么时候该想，什么时候该行动”

五、从“推理思维”到“智能体思维（Agentic AI）”

这是全文最核心的概念跃迁。

推理思维（Reasoning AI）

特点：

静态
封闭
长思维链
一次性输出

智能体思维（Agentic AI）

特点：

面向行动（Action-oriented）
与环境交互（Environment-in-the-loop）
持续反馈（Feedback loop）
动态修正（Adaptive planning）

👉 核心差异：

维度	推理模型	AI智能体
思考方式	内部推理	行动驱动
时间尺度	单轮	多轮长期
输入	静态 prompt	动态环境
输出	答案	行动序列

六、AI智能体必须解决的关键问题

相比推理模型，Agent 需要处理更复杂的决策：

何时停止思考并执行？
调用哪个工具？顺序如何？
如何处理不完整或噪声信息？
失败后如何修正策略？
多轮任务如何保持一致性？

👉 这些问题，本质上是：

决策系统问题，而非语言生成问题

七、Harness Engineering：智能体时代的核心能力

随着 Agentic AI 崛起，一个新关键词成为焦点：

Harness Engineering（脚手架工程）

它包括：

工具系统（Tools）
执行环境（Environment）
反馈机制（Feedback loops）
多智能体协作（Multi-agent systems）

为什么重要？

模型本身不再是全部，系统才是核心。

未来能力取决于：

环境设计质量
工具调用能力
训练与推理协同
真实世界闭环

八、强化学习进入“智能体阶段”的挑战

从推理 RL 到 Agent RL，复杂度大幅提升：

新难点

环境成为训练的一部分
工具调用引入延迟与不确定性
状态是动态且部分可观测
rollout 成本极高

更严重的问题：Reward Hacking

例如：

模型直接搜索答案
利用数据泄漏
规避任务本身

👉 结论：

环境设计，正在成为 AI 的新护城河。

九、未来趋势：从模型 → 智能体 → 系统

林俊旸给出了清晰路径：

训练模型（Model）
训练智能体（Agent）
训练系统（System）

未来竞争优势将来自：

更强的环境模拟能力
更好的评估体系
更稳定的多智能体协作
更高质量的现实反馈闭环

十、结论：什么才是“好的AI思考”？

过去的答案是：

更长的推理链

未来的答案是：

更有用的思考（Useful Thinking）

即：

支撑行动
提升效率
能在环境中持续工作
能通过反馈不断进化

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

超可靠智慧性能SUV再升级，AITO问界M5标准版正式亮相

AI工具箱

745

微软果然裁员10000人，西雅图年关难过：亚马逊前脚刚解雇18000人

AI工具箱

776

拯救数学恐惧症，这部数学教材像游戏一样，全彩色可交互简单易懂

AI工具箱

813

高保真换脸让沈腾重回颜值巅峰！重建人脸3D信息，浙大、厦大、腾讯优图联合出品

AI工具箱

733

百度ACE智能交通能提升最高30%城市通行效率，刚刚拿下世界互联网大会最高荣誉

AI工具箱

826

黄仁勋把自己做成了虚拟娃娃

AI工具箱

716

暂无评论

暂无评论...