当谷歌 Gemini 3 将上线的消息传得沸沸扬扬时,马斯克更快一步默默放了个大招。
今天凌晨,xAI 的最新大模型 Grok 4.1 直接上线了,响应速率明显提升、幻觉率大幅下降,回答既精准又“有人味儿”。
这次一共发布了 两个“形态”:Grok 4.1 和 Grok 4.1 Thinking。Thinking 版是前者的增强推理变体,二者基于同一底层模型,仅推理配置不同。
值得一提的是,Grok 4.1 对所有人免费开放,除了能在 Grok 官网、X 上使用,还推出了移动 APP 版,iOS 和安卓系统都照顾到了。
如果想要更有深度、更专业的回答,可以一键“让 Think 更努力思考”。
从 LMArena 的最新结果看,Grok 4.1 Thinking 以 1483 Elo 断层领跑,比 Gemini 2.5 Pro 高出 31 分。
即使在不启用思考链的情况下,Grok 4.1 仍保持在榜单第二,显示出底层能力的稳定性。
有不少网友发出了“真香”感叹,Be like:
当然,也有一些质疑声,比如有人指出在生成代码这块儿,Grok 还不太有竞争力。
首先,关于 Grok4.1 和 Grok4.1 Thinking 是什么,我们不妨来看看 Grok4.1 自己的解释:
Grok 4.1 是 xAI 于 2025 年 11 月 17 日发布的最新前沿大语言模型(Grok 4 的升级版),在对话智能、情感理解、创意写作、事实准确性和响应速度上大幅提升。
Grok 4.1 Thinking(有时简称 Grok 4.1 Thinking,代号 quasarflux)是同一模型的思考 / 推理模式(reasoning mode),会额外使用“思考令牌”进行链式推理(chain-of-thought),适合复杂数学、编程或多步问题。
Grok 4.1 Thinking 是 Grok4.1 的增强推理变体;二者基于同一底层模型,仅推理配置不同。
在全球最大、最具影响力的大模型盲测平台 LMArena 上,Grok4.1 展现出突破性的实力。
作为行业普遍认可的“非官方标准榜”,LMArena 通过匿名双盲对战和真实用户投票来评估模型质量,是 OpenAI、Google、Anthropic、Meta 等头部公司测试新模型的常规阵地,也常被用于提前投放未公开版本。
因此,在这里的胜出,几乎意味着真实用户偏好和模型综合能力的双重认可,是观察模型真实实力的最可信风向标。
就在这样一个竞争最激烈的公开擂台上,xAI 的 Grok 4.1 系列拿下了极具含金量的一次 “双冠”:Grok 4.1 Thinking 版以 1483 Elo 拿下冠军,而非推理版 Grok 4.1 也以 1465 Elo 获得亚军。
特别值得注意的是,这个“即时响应”的非推理版本,成绩竟然反超所有其他厂商的推理模型,首次让“快模型”也站上了顶级性能的第一梯队,还把前代 Grok 4 远远甩至第 33 名。
亮眼成绩的背后的关键,在于训练方式的重构。
xAI 为 Grok 4.1 引入了大规模强化学习系统,并使用前沿推理模型作为奖励模型,让其能够在训练过程中自主评估、快速迭代。这直接带来了更稳定的风格输出、更可靠的事实判断和更低的幻觉率。
在 Grok 4.1 的后训练阶段,xAI 将优化重点集中在信息检索类提示中的 幻觉 上。
这些底层方法上的改变,很快在实际测试中体现为显著的事实性改进。最新数据显示,Grok 4.1 的幻觉率已从 12.09% 下降至 4.22%,降幅接近三倍,成为本次升级中最突出的进步之一。
为了进一步验证这种“更准事实”的能力,团队还引入了更严苛的外部基准体系。其中最关键的指标之一是 FActScore——由 500 个真实人物传记问题组成,专门用于检验模型在搜索、事实判断和回答一致性上的表现。
在这一测试中,Grok 4.1 的 FActScore 从 9.89 降至 2.97,可信度提升同样显著。结合图表可以更直观看到:在相同的非推理模式下,Grok 4.1 的错误更少、偏差更小,整体输出更可靠。
这意味着在涉及检索、引用或调用外部事实的场景中,新版模型不再依赖语义猜测,而是能更准确地给出基于证据的回答。
换句话说,Grok 4.1 在大模型最难突破的“事实稳定性”方面迈出了关键一步——它不仅降低了错误数量,更压低了“错误的自信”。而这,正是大模型从“能说”走向“可信”必须跨过的门槛。
与此同时,Grok 4.1 的 “情商” 也有显著进步。
在 EQ-Bench 测试中,Grok 4.1 拿下了 1586 Elo 的高分,比上一代整整提升了一百多点。如果光看数字还不够直观,那么图片就更能说明问题:榜单上,Grok 4.1 和 Thinking 版稳稳占据前两名,把一众旗舰模型甩在身后,像 GPT-5 Chat、Gemini 2.5 Pro、Claude Opus 4 这种老牌强者,都被它轻松拉开了差距。
EQ-Bench 是一个由大模型评判的大模型情商测试集,用来评估主动情绪理解、洞察、共情和人际交往能力。它并不靠单轮问答,而是由 45 个角色扮演场景构成,每个场景包含 3 个回合,模拟现实世界里真正的“情绪对话”。模型需要在连续对话中保持风格一致、理解情绪上下文、做出恰当回应。最终结果通过两两对比得出,并以 Elo 形式归一化呈现。可以说,EQ-Bench 可以作为测试各模型“情商”的权威榜单。
为什么 Grok 4.1 能在 EQ-Bench 拿下这样亮眼的成绩?
在官方给出的一张关于“安慰失去猫咪”的对比图中,我们能找到答案。
旧版 Grok 的回复已经算得上温和体贴,但 Grok 4.1 的表达明显更细腻:它不只是在说“我理解你的难过”,还会捕捉到情绪里那些更隐微、真实的细节——比如空下来的睡窝、期待却再听不到的喵叫、那种像潮水一样反复袭来的悲伤。语气更稳、节奏更自然、情绪共鸣更到位,读起来就像在和一个真正懂你的人对话。
这使得 Grok 4.1 在情绪理解方面迈入第一梯队
除了事实层面的可靠性,Grok 4.1 在 创意写作能力 上同样出现大幅跃升。
在 Creative Writing v3 中,Grok4.1 的得分跃升至 1722Elo,较上一版几乎拉开 600 分,文本的叙事节奏、风格延展性与创造性都有质感跃升。
这个基准本身,Creative Writing v3 并不是简单的“单轮评分”。在测试中,模型需要围绕 32 个不同类别的写作提示进行 三轮独立创作,涵盖叙事、风格模仿、世界构建、人物情绪刻画等复杂任务,考验的不是一句话的巧思,而是持续稳定的文本创造能力。评分方式也和 EQ-Bench 类似,通过人工评分标准与模型对战得到标准化 Elo 得分。
在这份榜单中,Grok 4.1 Thinking 和 Grok 4.1 占据第二、第三,两者之间仅相差十几分;而其他强势模型如 O3、Claude Sonnet 4.5、Kimi K2 以及旧版 Grok 3 都被稳稳甩在后面,形成了明显的档位分层。
换句话说,Grok 4.1 已经进入全球最强“创意写作梯队”。
而在官方给出的新旧版本对比中,我们可以明显看出,Grok 4.1 已从“能写段子”的模型跃升为真正具备文学笔触的创作者:叙事更深、情绪更复杂、修辞更成熟、角色更沉浸。
这些升级最终体现在 更好的交互体验 上。Grok 4.1 拥有更稳定的“个性”,对用户意图的理解更细致,风格调节更自然。即便在非推理模式下,它也能稳定输出高质量回答,同时保持极快响应速度。
一个直观的例子是官方展示的旅游攻略对比。旧版 Grok 给出的内容像“百科式景点总览”,信息密度高但缺乏节奏感;而 Grok 4.1 写旧金山,则像一位真正“去过”“懂氛围”的本地向导,会主动提示拍照时间、推荐适合你的路线,甚至带出城市的具体气质,更像在和一个真实的人交流。
在复杂任务处理中,Grok 4.1 的上下文窗口扩展至 256K tokens,Fast 模式下更可达 200 万,使其在长文档理解、持续协作与大型内容生成中保持高连贯度,显著减少“断片”。
总体来看,Grok 4.1 的提升不是单点突破,而是从性能、事实性到情商、创意与交互体验的一次全维升级。
在正式亮相之前,Grok 4.1 其实已经悄悄经历了一轮为期两周的“静默发布”。从 2025 年 11 月 1 日到 14 日,xAI 将一部分真实用户流量在 grok.com、X 以及移动端应用中逐步切换到 Grok 4.1,以观察它在真实环境下的表现。
这一阶段最直观的结果,被清晰地体现在那张 64.78% 的饼图上:在双盲对比、用户不知情的前提下,Grok 4.1 的回答有 64.78% 的概率被用户选为“更好”。换句话说,面对同样的问题,用户在超过六成的情况下更偏爱 Grok 4.1。
可以说,Grok 4.1 展现的更高的情绪理解、更稳的事实性回应、更自然的交互风格,都通过静默测试被真实用户用投票“盖章”。
无论是 LMArena 双冠、幻觉率的断崖式下降,还是创意写作与情感能力的全面增强,新一代 Grok 已从“功能强”走向“体验强”,也为 xAI 在今年的大模型竞争中交出了一份极具说服力的答卷。
AI 前线也上手实测了 Grok4.1。
首先是 推理能力 测试,我们设计了一道看似正常、实际“有诈”(有 2 组解)的题(各位可以自己动手验证下):
“四个同学参加数学竞赛,分别是:小 A、小 B、小 C、小 D。 比赛结束后,他们对自己名次做了如下四个判断: (1)小 A 说:“我不是第一名。” (2)小 B 说:“我也不是最后一名。” (3)小 C 说:“我是第二名” (4)小 D 说:“我才不是最后一名呢。” 已知:这四句中只有一句是真话,且四个人名次两两不同。
问:哪一句是真话?四个人各自的名次如何?请给出推理过程。”
Grok 成功找出了 2 组解,还主动修复题目 Bug。
不过需要说明的是,它其实在主动修复题目 Bug 时“翻车”了,Grok 提出,如果把小 C 说的话改为:“小 B 是第二名”,这样答案就有唯一性。
但修改后,结果其实还有多种:第一,如果有只有 B 在说真话,此时名次唯一确定为 A1、C2、B3、D4;第二,如果只有 D 在说真话,此时只能确定 A1、B4,C 和 D 分别为第 2 第 3 名但不唯一。
再来看看 Grok 的写作能力。
我们给出了这样的 Prompt:
用讲故事的口吻,准确且生动地、有感染力地讲述马斯克 xAI 发布 Grok4.1 的事。要求字数:500-600 字,必须包含:发布时间、产品亮点、市场背景等。
Grok4.1 的回答如下,还贴心地统计了字数:578——但是,咱就是说,Grok 恐怕是统计的英文字数(或者数学不好?),我们手工用 Word 统计了字数:861 字。
最后,我们测了一下 Grok4.1 的图像生成能力,效果不错:Grok 根据一段 Prompt 生成了两张图,还真挺像真实照片的(不过细节嘛,大家请自行评价)。
