马斯克抢先谷歌一步放大招，Grok 4.1登顶LMArena，创意写作直逼GPT-5.1

258 0 0

当谷歌 Gemini 3 将上线的消息传得沸沸扬扬时，马斯克更快一步默默放了个大招。

今天凌晨，xAI 的最新大模型 Grok 4.1 直接上线了，响应速率明显提升、幻觉率大幅下降，回答既精准又“有人味儿”。

这次一共发布了 两个“形态”：Grok 4.1 和 Grok 4.1 Thinking。Thinking 版是前者的增强推理变体，二者基于同一底层模型，仅推理配置不同。

值得一提的是，Grok 4.1 对所有人免费开放，除了能在 Grok 官网、X 上使用，还推出了移动 APP 版，iOS 和安卓系统都照顾到了。马斯克抢先谷歌一步放大招，Grok 4.1登顶LMArena，创意写作直逼GPT-5.1

如果想要更有深度、更专业的回答，可以一键“让 Think 更努力思考”。

从 LMArena 的最新结果看，Grok 4.1 Thinking 以 1483 Elo 断层领跑，比 Gemini 2.5 Pro 高出 31 分。

即使在不启用思考链的情况下，Grok 4.1 仍保持在榜单第二，显示出底层能力的稳定性。

马斯克抢先谷歌一步放大招，Grok 4.1登顶LMArena，创意写作直逼GPT-5.1

有不少网友发出了“真香”感叹，Be like：

当然，也有一些质疑声，比如有人指出在生成代码这块儿，Grok 还不太有竞争力。

“双形态”的 Grok4.1 霸榜 LMArena

首先，关于 Grok4.1 和 Grok4.1 Thinking 是什么，我们不妨来看看 Grok4.1 自己的解释：

Grok 4.1 是 xAI 于 2025 年 11 月 17 日发布的最新前沿大语言模型（Grok 4 的升级版），在对话智能、情感理解、创意写作、事实准确性和响应速度上大幅提升。

Grok 4.1 Thinking（有时简称 Grok 4.1 Thinking，代号 quasarflux）是同一模型的思考 / 推理模式（reasoning mode），会额外使用“思考令牌”进行链式推理（chain-of-thought），适合复杂数学、编程或多步问题。

Grok 4.1 Thinking 是 Grok4.1 的增强推理变体；二者基于同一底层模型，仅推理配置不同。

在全球最大、最具影响力的大模型盲测平台 LMArena 上，Grok4.1 展现出突破性的实力。

作为行业普遍认可的“非官方标准榜”，LMArena 通过匿名双盲对战和真实用户投票来评估模型质量，是 OpenAI、Google、Anthropic、Meta 等头部公司测试新模型的常规阵地，也常被用于提前投放未公开版本。

因此，在这里的胜出，几乎意味着真实用户偏好和模型综合能力的双重认可，是观察模型真实实力的最可信风向标。

就在这样一个竞争最激烈的公开擂台上，xAI 的 Grok 4.1 系列拿下了极具含金量的一次 “双冠”：Grok 4.1 Thinking 版以 1483 Elo 拿下冠军，而非推理版 Grok 4.1 也以 1465 Elo 获得亚军。

特别值得注意的是，这个“即时响应”的非推理版本，成绩竟然反超所有其他厂商的推理模型，首次让“快模型”也站上了顶级性能的第一梯队，还把前代 Grok 4 远远甩至第 33 名。

亮眼成绩的背后的关键，在于训练方式的重构。

xAI 为 Grok 4.1 引入了大规模强化学习系统，并使用前沿推理模型作为奖励模型，让其能够在训练过程中自主评估、快速迭代。这直接带来了更稳定的风格输出、更可靠的事实判断和更低的幻觉率。

在 Grok 4.1 的后训练阶段，xAI 将优化重点集中在信息检索类提示中的幻觉上。

这些底层方法上的改变，很快在实际测试中体现为显著的事实性改进。最新数据显示，Grok 4.1 的幻觉率已从 12.09% 下降至 4.22%，降幅接近三倍，成为本次升级中最突出的进步之一。

为了进一步验证这种“更准事实”的能力，团队还引入了更严苛的外部基准体系。其中最关键的指标之一是 FActScore——由 500 个真实人物传记问题组成，专门用于检验模型在搜索、事实判断和回答一致性上的表现。

在这一测试中，Grok 4.1 的 FActScore 从 9.89 降至 2.97，可信度提升同样显著。结合图表可以更直观看到：在相同的非推理模式下，Grok 4.1 的错误更少、偏差更小，整体输出更可靠。

这意味着在涉及检索、引用或调用外部事实的场景中，新版模型不再依赖语义猜测，而是能更准确地给出基于证据的回答。

换句话说，Grok 4.1 在大模型最难突破的“事实稳定性”方面迈出了关键一步——它不仅降低了错误数量，更压低了“错误的自信”。而这，正是大模型从“能说”走向“可信”必须跨过的门槛。

与此同时，Grok 4.1 的 “情商” 也有显著进步。

在 EQ-Bench 测试中，Grok 4.1 拿下了 1586 Elo 的高分，比上一代整整提升了一百多点。如果光看数字还不够直观，那么图片就更能说明问题：榜单上，Grok 4.1 和 Thinking 版稳稳占据前两名，把一众旗舰模型甩在身后，像 GPT-5 Chat、Gemini 2.5 Pro、Claude Opus 4 这种老牌强者，都被它轻松拉开了差距。

EQ-Bench 是一个由大模型评判的大模型情商测试集，用来评估主动情绪理解、洞察、共情和人际交往能力。它并不靠单轮问答，而是由 45 个角色扮演场景构成，每个场景包含 3 个回合，模拟现实世界里真正的“情绪对话”。模型需要在连续对话中保持风格一致、理解情绪上下文、做出恰当回应。最终结果通过两两对比得出，并以 Elo 形式归一化呈现。可以说，EQ-Bench 可以作为测试各模型“情商”的权威榜单。

为什么 Grok 4.1 能在 EQ-Bench 拿下这样亮眼的成绩？

在官方给出的一张关于“安慰失去猫咪”的对比图中，我们能找到答案。

旧版 Grok 的回复已经算得上温和体贴，但 Grok 4.1 的表达明显更细腻：它不只是在说“我理解你的难过”，还会捕捉到情绪里那些更隐微、真实的细节——比如空下来的睡窝、期待却再听不到的喵叫、那种像潮水一样反复袭来的悲伤。语气更稳、节奏更自然、情绪共鸣更到位，读起来就像在和一个真正懂你的人对话。

这使得 Grok 4.1 在情绪理解方面迈入第一梯队

除了事实层面的可靠性，Grok 4.1 在 创意写作能力 上同样出现大幅跃升。

在 Creative Writing v3 中，Grok4.1 的得分跃升至 1722Elo，较上一版几乎拉开 600 分，文本的叙事节奏、风格延展性与创造性都有质感跃升。

这个基准本身，Creative Writing v3 并不是简单的“单轮评分”。在测试中，模型需要围绕 32 个不同类别的写作提示进行三轮独立创作，涵盖叙事、风格模仿、世界构建、人物情绪刻画等复杂任务，考验的不是一句话的巧思，而是持续稳定的文本创造能力。评分方式也和 EQ-Bench 类似，通过人工评分标准与模型对战得到标准化 Elo 得分。

在这份榜单中，Grok 4.1 Thinking 和 Grok 4.1 占据第二、第三，两者之间仅相差十几分；而其他强势模型如 O3、Claude Sonnet 4.5、Kimi K2 以及旧版 Grok 3 都被稳稳甩在后面，形成了明显的档位分层。

换句话说，Grok 4.1 已经进入全球最强“创意写作梯队”。

而在官方给出的新旧版本对比中，我们可以明显看出，Grok 4.1 已从“能写段子”的模型跃升为真正具备文学笔触的创作者：叙事更深、情绪更复杂、修辞更成熟、角色更沉浸。

这些升级最终体现在 更好的交互体验 上。Grok 4.1 拥有更稳定的“个性”，对用户意图的理解更细致，风格调节更自然。即便在非推理模式下，它也能稳定输出高质量回答，同时保持极快响应速度。

一个直观的例子是官方展示的旅游攻略对比。旧版 Grok 给出的内容像“百科式景点总览”，信息密度高但缺乏节奏感；而 Grok 4.1 写旧金山，则像一位真正“去过”“懂氛围”的本地向导，会主动提示拍照时间、推荐适合你的路线，甚至带出城市的具体气质，更像在和一个真实的人交流。

在复杂任务处理中，Grok 4.1 的上下文窗口扩展至 256K tokens，Fast 模式下更可达 200 万，使其在长文档理解、持续协作与大型内容生成中保持高连贯度，显著减少“断片”。

总体来看，Grok 4.1 的提升不是单点突破，而是从性能、事实性到情商、创意与交互体验的一次全维升级。

在正式亮相之前，Grok 4.1 其实已经悄悄经历了一轮为期两周的“静默发布”。从 2025 年 11 月 1 日到 14 日，xAI 将一部分真实用户流量在 grok.com、X 以及移动端应用中逐步切换到 Grok 4.1，以观察它在真实环境下的表现。

这一阶段最直观的结果，被清晰地体现在那张 64.78% 的饼图上：在双盲对比、用户不知情的前提下，Grok 4.1 的回答有 64.78% 的概率被用户选为“更好”。换句话说，面对同样的问题，用户在超过六成的情况下更偏爱 Grok 4.1。

可以说，Grok 4.1 展现的更高的情绪理解、更稳的事实性回应、更自然的交互风格，都通过静默测试被真实用户用投票“盖章”。

无论是 LMArena 双冠、幻觉率的断崖式下降，还是创意写作与情感能力的全面增强，新一代 Grok 已从“功能强”走向“体验强”，也为 xAI 在今年的大模型竞争中交出了一份极具说服力的答卷。

我们实测了 Grok4.1

AI 前线也上手实测了 Grok4.1。

首先是 推理能力 测试，我们设计了一道看似正常、实际“有诈”（有 2 组解）的题（各位可以自己动手验证下）：

“四个同学参加数学竞赛，分别是：小 A、小 B、小 C、小 D。比赛结束后，他们对自己名次做了如下四个判断：（1）小 A 说：“我不是第一名。” （2）小 B 说：“我也不是最后一名。” （3）小 C 说：“我是第二名” （4）小 D 说：“我才不是最后一名呢。” 已知：这四句中只有一句是真话，且四个人名次两两不同。

问：哪一句是真话？四个人各自的名次如何？请给出推理过程。”

Grok 成功找出了 2 组解，还主动修复题目 Bug。

不过需要说明的是，它其实在主动修复题目 Bug 时“翻车”了，Grok 提出，如果把小 C 说的话改为：“小 B 是第二名”，这样答案就有唯一性。

但修改后，结果其实还有多种：第一，如果有只有 B 在说真话，此时名次唯一确定为 A1、C2、B3、D4；第二，如果只有 D 在说真话，此时只能确定 A1、B4，C 和 D 分别为第 2 第 3 名但不唯一。

再来看看 Grok 的写作能力。

我们给出了这样的 Prompt：