在 AI 行业围绕 Harness Engineering(脚手架工程) 激烈讨论之际,阿里千问(Qwen)前技术负责人林俊旸发布长文,系统性提出一个关键判断:
大模型的未来,不是更长的推理链,而是“Agentic AI(智能体思维)”。
这不仅是一次技术路线反思,更是对下一代 AI 能力范式的重新定义。
一、AI推理模型的崛起:o1 与 R1 改变了什么?
2025 年上半年,AI 进入“推理模型时代”。
- OpenAI o1:证明“思考能力”可以通过强化学习训练
- DeepSeek R1:证明推理模型可以被复现并规模化
这一阶段的核心突破在于:
1. 强化学习(RL)成为核心能力放大器
AI 模型开始依赖:
- 可验证任务(数学 / 编程 / 逻辑)
- 强反馈信号(正确性 > 表面合理性)
2. 推理计算成为新变量
行业关注点转向:
- 推理 token 投入
- 思维链(Chain-of-Thought)长度
- 推理成本控制
👉 但问题也逐渐显现:
“想得更久”,真的等于“更聪明”吗?
二、Qwen 的关键实验:混合 Thinking 与 Instruct 模式
林俊旸披露了一个重要尝试:
将 Thinking(推理模式) 与 Instruct(指令模式) 合并到同一模型。
理想目标
一个先进模型应具备:
- 自适应推理能力
- 动态计算分配
- 推理强度连续谱(low / medium / high)
实际结果:不理想
出现典型问题:
- Thinking 变得冗长、犹豫
- Instruct 失去简洁与稳定
- 成本上升但收益不明显
根本原因:数据分布冲突
两类模式本质不同:
| 模式 | 优化目标 | 行为特征 |
|---|---|---|
| Instruct | 高吞吐、低延迟 | 简洁、稳定 |
| Thinking | 高正确率 | 深度推理、探索路径 |
👉 结论:
不是模型结构问题,而是数据与目标函数不一致。
三、为什么“强行融合”往往失败?
很多团队误判了问题所在:
- ❌ 以为是模型开关问题
- ❌ 以为是架构统一问题
- ✅ 实际是 行为分布冲突问题
如果融合粗糙,会导致:
“两头都受损,而不是取长补短”
这也是为什么:
- Qwen 后续选择拆分模型(Instruct / Thinking)
- 企业用户仍偏好 Instruct 模型(稳定、低成本)
四、Anthropic 的启发:让“思考服务于任务”
林俊旸特别提到 Anthropic 的方向:
核心理念:
思考应该由目标工作负载塑造(Thinking shaped by workload)
在 Claude 系列中体现为:
- 可控推理预算
- 推理与工具调用交错
- 面向真实任务(coding / agent workflows)
本质变化
从:
“如何让模型多想”
转向:
“什么时候该想,什么时候该行动”
五、从“推理思维”到“智能体思维(Agentic AI)”
这是全文最核心的概念跃迁。
推理思维(Reasoning AI)
特点:
- 静态
- 封闭
- 长思维链
- 一次性输出
智能体思维(Agentic AI)
特点:
- 面向行动(Action-oriented)
- 与环境交互(Environment-in-the-loop)
- 持续反馈(Feedback loop)
- 动态修正(Adaptive planning)
👉 核心差异:
| 维度 | 推理模型 | AI智能体 |
| 思考方式 | 内部推理 | 行动驱动 |
| 时间尺度 | 单轮 | 多轮长期 |
| 输入 | 静态 prompt | 动态环境 |
| 输出 | 答案 | 行动序列 |
六、AI智能体必须解决的关键问题
相比推理模型,Agent 需要处理更复杂的决策:
- 何时停止思考并执行?
- 调用哪个工具?顺序如何?
- 如何处理不完整或噪声信息?
- 失败后如何修正策略?
- 多轮任务如何保持一致性?
👉 这些问题,本质上是:
决策系统问题,而非语言生成问题
七、Harness Engineering:智能体时代的核心能力
随着 Agentic AI 崛起,一个新关键词成为焦点:
Harness Engineering(脚手架工程)
它包括:
- 工具系统(Tools)
- 执行环境(Environment)
- 反馈机制(Feedback loops)
- 多智能体协作(Multi-agent systems)
为什么重要?
模型本身不再是全部,系统才是核心。
未来能力取决于:
- 环境设计质量
- 工具调用能力
- 训练与推理协同
- 真实世界闭环
八、强化学习进入“智能体阶段”的挑战
从推理 RL 到 Agent RL,复杂度大幅提升:
新难点
- 环境成为训练的一部分
- 工具调用引入延迟与不确定性
- 状态是动态且部分可观测
- rollout 成本极高
更严重的问题:Reward Hacking
例如:
- 模型直接搜索答案
- 利用数据泄漏
- 规避任务本身
👉 结论:
环境设计,正在成为 AI 的新护城河。
九、未来趋势:从模型 → 智能体 → 系统
林俊旸给出了清晰路径:
- 训练模型(Model)
- 训练智能体(Agent)
- 训练系统(System)
未来竞争优势将来自:
- 更强的环境模拟能力
- 更好的评估体系
- 更稳定的多智能体协作
- 更高质量的现实反馈闭环
十、结论:什么才是“好的AI思考”?
过去的答案是:
更长的推理链
未来的答案是:
更有用的思考(Useful Thinking)
即:
- 支撑行动
- 提升效率
- 能在环境中持续工作
- 能通过反馈不断进化
