从“推理模型”到“AI智能体”:林俊旸谈 Agentic AI 的下一阶段范式

AI资讯2小时前发布 AI工具箱
5 0 0

在 AI 行业围绕 Harness Engineering(脚手架工程) 激烈讨论之际,阿里千问(Qwen)前技术负责人林俊旸发布长文,系统性提出一个关键判断:

大模型的未来,不是更长的推理链,而是“Agentic AI(智能体思维)”。

这不仅是一次技术路线反思,更是对下一代 AI 能力范式的重新定义。


一、AI推理模型的崛起:o1 与 R1 改变了什么?

2025 年上半年,AI 进入“推理模型时代”。

  • OpenAI o1:证明“思考能力”可以通过强化学习训练
  • DeepSeek R1:证明推理模型可以被复现并规模化

这一阶段的核心突破在于:

1. 强化学习(RL)成为核心能力放大器

AI 模型开始依赖:

  • 可验证任务(数学 / 编程 / 逻辑)
  • 强反馈信号(正确性 > 表面合理性)

2. 推理计算成为新变量

行业关注点转向:

  • 推理 token 投入
  • 思维链(Chain-of-Thought)长度
  • 推理成本控制

👉 但问题也逐渐显现:
“想得更久”,真的等于“更聪明”吗?


二、Qwen 的关键实验:混合 Thinking 与 Instruct 模式

林俊旸披露了一个重要尝试:

Thinking(推理模式)Instruct(指令模式) 合并到同一模型。

理想目标

一个先进模型应具备:

  • 自适应推理能力
  • 动态计算分配
  • 推理强度连续谱(low / medium / high)

实际结果:不理想

出现典型问题:

  • Thinking 变得冗长、犹豫
  • Instruct 失去简洁与稳定
  • 成本上升但收益不明显

根本原因:数据分布冲突

两类模式本质不同:

模式 优化目标 行为特征
Instruct 高吞吐、低延迟 简洁、稳定
Thinking 高正确率 深度推理、探索路径

👉 结论:
不是模型结构问题,而是数据与目标函数不一致。


三、为什么“强行融合”往往失败?

很多团队误判了问题所在:

  • ❌ 以为是模型开关问题
  • ❌ 以为是架构统一问题
  • ✅ 实际是 行为分布冲突问题

如果融合粗糙,会导致:

“两头都受损,而不是取长补短”

这也是为什么:

  • Qwen 后续选择拆分模型(Instruct / Thinking)
  • 企业用户仍偏好 Instruct 模型(稳定、低成本)

四、Anthropic 的启发:让“思考服务于任务”

林俊旸特别提到 Anthropic 的方向:

核心理念:

思考应该由目标工作负载塑造(Thinking shaped by workload)

在 Claude 系列中体现为:

  • 可控推理预算
  • 推理与工具调用交错
  • 面向真实任务(coding / agent workflows)

本质变化

从:

“如何让模型多想”

转向:

“什么时候该想,什么时候该行动”


五、从“推理思维”到“智能体思维(Agentic AI)”

这是全文最核心的概念跃迁。

推理思维(Reasoning AI)

特点:

  • 静态
  • 封闭
  • 长思维链
  • 一次性输出

智能体思维(Agentic AI)

特点:

  • 面向行动(Action-oriented)
  • 与环境交互(Environment-in-the-loop)
  • 持续反馈(Feedback loop)
  • 动态修正(Adaptive planning)

👉 核心差异:

维度 推理模型 AI智能体
思考方式 内部推理 行动驱动
时间尺度 单轮 多轮长期
输入 静态 prompt 动态环境
输出 答案 行动序列

六、AI智能体必须解决的关键问题

相比推理模型,Agent 需要处理更复杂的决策:

  • 何时停止思考并执行?
  • 调用哪个工具?顺序如何?
  • 如何处理不完整或噪声信息?
  • 失败后如何修正策略?
  • 多轮任务如何保持一致性?

👉 这些问题,本质上是:

决策系统问题,而非语言生成问题


七、Harness Engineering:智能体时代的核心能力

随着 Agentic AI 崛起,一个新关键词成为焦点:

Harness Engineering(脚手架工程)

它包括:

  • 工具系统(Tools)
  • 执行环境(Environment)
  • 反馈机制(Feedback loops)
  • 多智能体协作(Multi-agent systems)

为什么重要?

模型本身不再是全部,系统才是核心。

未来能力取决于:

  • 环境设计质量
  • 工具调用能力
  • 训练与推理协同
  • 真实世界闭环

八、强化学习进入“智能体阶段”的挑战

从推理 RL 到 Agent RL,复杂度大幅提升:

新难点

  1. 环境成为训练的一部分
  2. 工具调用引入延迟与不确定性
  3. 状态是动态且部分可观测
  4. rollout 成本极高

更严重的问题:Reward Hacking

例如:

  • 模型直接搜索答案
  • 利用数据泄漏
  • 规避任务本身

👉 结论:

环境设计,正在成为 AI 的新护城河。


九、未来趋势:从模型 → 智能体 → 系统

林俊旸给出了清晰路径:

  1. 训练模型(Model)
  2. 训练智能体(Agent)
  3. 训练系统(System)

未来竞争优势将来自:

  • 更强的环境模拟能力
  • 更好的评估体系
  • 更稳定的多智能体协作
  • 更高质量的现实反馈闭环

十、结论:什么才是“好的AI思考”?

过去的答案是:

更长的推理链

未来的答案是:

更有用的思考(Useful Thinking)

即:

  • 支撑行动
  • 提升效率
  • 能在环境中持续工作
  • 能通过反馈不断进化
© 版权声明

相关文章

暂无评论

暂无评论...