GPT-4.1登场,实测碾压OpenAI所有模型,但效果不如Gemini?

AI资讯2周前发布 AI工具箱
126 0 0

该系列包括标准的GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,所有版本都可以通过API使用,但无法在ChatGPT中使用。

目前,已经有不少用户在体验GPT-4.1的效果了。一位网友在试用后表示,“GPT-4.1可以处理所有其他OpenAI模型无法应对的大篇幅上下文。”还有网友用GPT-4.1模型绘制一只鹈鹕,并将其与Grok 3、LLama 4 和 Gemini 2.5 Pro 的生成结果进行比较,被评Gemini做得更好。 Box AI则分享了用GPT-4.1模型来研读一份冗长的收益报告文档、从中提取出数据字段的例子,并表示其“能够大规模查询、整合、分析和总结任何数据类型”。

此外,GPT 4.1现已接入ChatLLM。在代码处理方面,它似乎不如Gemini 2.5 Pro和Claude 3.7 Sonnet。

OpenAI 声称,在包括SWE-bench在内的编码基准测试中,完整的GPT-4.1模型的表现优于其GPT-4o和GPT-4o mini模型。其中,GPT-4.1 mini和nano更高效、更快速,但也牺牲了一定准确性。GPT-4.1在SWE-bench Verified上的得分介于52%和54.6%之间,不过略低于谷歌和Anthropic在同一基准测试中报告的、分别为Gemini 2.5 Pro(63.8%)和Claude 3.7 Sonnet(62.3%)的分数。

并且,GPT-4.1在Video-MME的长视频理解测试中达到了72%的准确率,相比GPT-4o的65.3%有了显著提升。

OpenAI还宣布,将在7月14日之前从 API 访问中淘汰GPT-4.5。该公司称,GPT-4.1能够以低成本提供“相当或更优的性能”。有网友表示,在SimpleQA基准测试中,GPT-4.5 仍比 GPT-4.1 好得多。

也有不少网友调侃OpenAI的命名方式,“难道是掷骰子吗?4.1怎么能算是4.5的升级版?”“为什么不直接用4.1更新4.5?这会比倒回去更新更合理。”

浏览 1381,
 ,,北京
© 版权声明

相关文章

暂无评论

暂无评论...