昆仑云谷揭秘:超长上下文+卓越编程,GPT-4.1功能全解析!
近日,人工智能领域迎来重大突破,OpenAI正式发布GPT-4.1系列模型,涵盖GPT-4.1、GPT-4.1mini和GPT-4.1nano三款子模型。这一系列模型的发布,不仅在编程能力、指令理解及长文本处理等方面实现重大突破,更以超高的性价比和强大的性能,为AI应用开发带来了全新的机遇。昆仑云谷作为人工智能领域的关注者与探索者,将带您了解GPT-4.1系列模型的各项特性及其对行业的影响。
GPT-4.1系列模型包含三个模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,上下文窗口均达到100万个token,输出token数达到32768个,知识截止日期更新至2024年6月。当前,GPT-4.1系列模型仅通过API提供,现已对所有开发者开放。随着新系列模型的上线,OpenAI决定在API中弃用GPT-4.5预览版,后者将于今年7月14日下架。
▲ GPT-4.1系列模型
超长上下文窗口
GPT-4.1系列模型将上下文窗口扩展至100万tokens,是GPT-4o(12.8 万个)的8倍。这意味着模型能够一次性处理约75万字的文本,为处理大型代码库、长文档等复杂任务提供了强有力的支持。在OpenAI的“大海捞针”实验中,GPT-4.1系列模型均能够在高达1M的上下文中检索所有位置的“针”,展现出卓越的长文本理解能力。
▲ OpenAI内部针对GPT-4.1模型的“大海捞针”评估
在实际使用中,用户经常需要模型理解、检索多个信息片段,并理解这些片段之间的关系。为此,OpenAI开源了一个新的评估平台OpenAI-MRCR,用来测试模型在上下文中找到和区分多个隐藏关键信息的能力。在 OpenAI-MRCR 测试中,GPT-4.1比GPT-4o更能准确识别并处理隐藏在上下文中的多个 “关键信息”。
▲ 在OpenAI-MRCR中,模型回答问题被添加2个/4个/8个干扰项的评估结果
OpenAI还发布了用于评估多跳长上下文推理的数据集Graphwalks。GPT-4.1在这个基准测试中达到了61.7%的准确率,远超 GPT-4o。
▲ Graphwalks评估结果
强大的编程能力
在SWE-bench Verified测试中,GPT-4.1得分达54.6%,较GPT-4o提升21.4个百分点。它能够高效地解决编程问题,包括前端开发、减少不必要的修改、更可靠地遵循diff格式、确保一致的工具调用方式等。例如,在Windsurf的内部编码基准测试中,GPT-4.1的得分比GPT-4o高出60%,编程效率提升30%,无效编辑减少50%。
▲ SWE-bench Verified测试结果
对于希望编辑大文件的API开发者来说,GPT-4.1在多种格式下的代码差异比对中表现更加可靠。在Aider的多语言差异基准测试中,GPT-4.1的得分是GPT-4o的两倍,比GPT-4.5高出8%。
▲ Aider测试结果
此外,OpenAI还将GPT-4.1的输出上限提升至32768个token,GPT-4o为16384个token,同时推荐使用“预测性输出”功能来减少完整文件重写的延迟。
优异的指令遵循能力
OpenAI 开发了一套内部指令遵循评估系统,用于追踪模型在多个维度和关键指令遵循类别上的表现,包括:
1
Format following:提供指定模型响应格式的指令,例如 XML、YAML、Markdown 等。
2
Negative instructions:明确要求模型避免某些行为。(例如:“不要提示用户联系客服。”)
3
Ordered instructions:提供一组必须按特定顺序执行的指令。(例如:“先询问用户的姓名,再询问其邮箱。”)
4
Content requirements:确保输出包含特定信息。(例如:“在制定营养计划时,必须包含蛋白质含量。”)
5
Ranking:按特定方式组织输出。(例如:“按人口数量排序。”)
6
Overconfidence:当模型无法提供准确信息或请求超出其能力范围时,要求其回答“我不知道”或类似表达。(例如:“若不清楚答案,请提供客服联系邮箱。”)
据悉,这些类别是根据开发者反馈得出。在每个类别中,OpenAI进一步划分了简单、中等和困难三种提示难度。GPT-4.1 在困难提示上的表现尤其显著优于 GPT-4o,多轮指令遵循能力更是大幅提升。
▲ GPT-4.1在困难提示方面表现
在 Scale 的 MultiChallenge 基准测试中,GPT-4.1 的得分比 GPT-4o 提高了 10.5%。
▲GPT-4.1在MultiChallenge中测试结果
在IFEval测试中,GPT-4.1得分达到87.4%,GPT-4o为81.0%。这意味着GPT-4.1能更精准、更可靠地理解并执行各种指令,减少“答非所问”或“自由发挥”的情况。

▲ GPT-4.1在IFEval中测试结果
卓越的多模态处理能力
视觉理解方面,GPT-4.1系列同样表现出色,GPT-4.1 mini在图像基准测试中甚至超越了GPT-4o。
在Video-MME测试中,模型需要根据30-60分钟的无字幕长视频回答多项选择题。GPT-4.1得分72.0%,较GPT-4o提升了6.7%,创下了新的行业最高水平。这意味着它在处理图像、语音、文本实时转换等方面具有出色的能力,特别适用于医疗影像实时标注、工业图纸协同编辑等专业场景。
模型回答包含图表、图表、地图等问题的MMMU测试结果:

模型解决视觉数学任务的MathVista测试结果:
模型回答关于科学论文图表问题的CharXiv-Reasoning测试结果:
高性价比,价格亲民
OpenAI的基准测试显示,GPT-4.1系列模型在编码、指令遵循、长文本理解方面的得分均超过了GPT-4o和GPT-4o mini。其中,GPT-4.1 nano被视为最快、最经济的模型。OpenAI表示,性能表现更好、更经济的GPT-4.1系列模型将为开发者构建智能系统和复杂的智能体应用开辟新的可能性。

价格方面,GPT-4.1 的中等规模查询成本比 GPT-4o 降低 26%,对于重复使用相同上下文的查询,OpenAI将提示缓存折扣从之前的50%提升至75%。最后,除了标准的每token费用之外,OpenAI不再对长上下文请求额外收费。
总的来看,GPT-4.1系列模型的发布推动了人工智能技术从辅助工具向核心生产力的关键跨越。从产业影响来看,GPT-4.1大幅降低了AI应用开发门槛,重构了人机协作模式,并将催生新一代智能应用生态。这一技术突破正在加速AI从单一工具向生产系统核心的转型,为各行业带来新的活力和变革机遇。
面对GPT-4.1引领的技术浪潮,昆仑云谷建议企业积极拥抱这一技术变革,确立“AI优先”发展战略,重点投入人才储备、数据资产建设和应用场景创新,打造差异化竞争力。昆仑云谷也将持续深化AI技术研究,与产业伙伴共同构建智能生态,我们相信,以GPT-4.1为代表的新一代AI技术,正在开启一个智能变革的新篇章,为数字经济发展注入全新动能,为人类社会创造更多可能性。
*本文技术信息源自OpenAI发布的《Introducing GPT-4.1 in the API》