GPT-4.1登场，实测碾压OpenAI所有模型，但效果不如Gemini？

AI资讯1年前 (2025)发布 AI工具箱

1,071 0 0

昨晚，OpenAI 推出了名为 GPT-4.1 的新模型，该系列优先提升了编码能力和指令跟随能力，同时将上下文窗口扩展到了100万个tokens，大约相当于75万个单词。所有这些模型的知识截止日期为2024年6月，能提供更贴合当下的上下文理解。

该系列包括标准的GPT-4.1、GPT-4.1 mini和GPT-4.1 nano，所有版本都可以通过API使用，但无法在ChatGPT中使用。

目前，已经有不少用户在体验GPT-4.1的效果了。一位网友在试用后表示，“GPT-4.1可以处理所有其他OpenAI模型无法应对的大篇幅上下文。”还有网友用GPT-4.1模型绘制一只鹈鹕，并将其与Grok 3、LLama 4 和 Gemini 2.5 Pro 的生成结果进行比较，被评Gemini做得更好。 Box AI则分享了用GPT-4.1模型来研读一份冗长的收益报告文档、从中提取出数据字段的例子，并表示其“能够大规模查询、整合、分析和总结任何数据类型”。

此外，GPT 4.1现已接入ChatLLM。在代码处理方面，它似乎不如Gemini 2.5 Pro和Claude 3.7 Sonnet。

OpenAI 声称，在包括SWE-bench在内的编码基准测试中，完整的GPT-4.1模型的表现优于其GPT-4o和GPT-4o mini模型。其中，GPT-4.1 mini和nano更高效、更快速，但也牺牲了一定准确性。GPT-4.1在SWE-bench Verified上的得分介于52%和54.6%之间，不过略低于谷歌和Anthropic在同一基准测试中报告的、分别为Gemini 2.5 Pro（63.8%）和Claude 3.7 Sonnet（62.3%）的分数。

并且，GPT-4.1在Video-MME的长视频理解测试中达到了72%的准确率，相比GPT-4o的65.3%有了显著提升。

OpenAI还宣布，将在7月14日之前从 API 访问中淘汰GPT-4.5。该公司称，GPT-4.1能够以低成本提供“相当或更优的性能”。有网友表示，在SimpleQA基准测试中，GPT-4.5 仍比 GPT-4.1 好得多。

也有不少网友调侃OpenAI的命名方式，“难道是掷骰子吗？4.1怎么能算是4.5的升级版？”“为什么不直接用4.1更新4.5？这会比倒回去更新更合理。”