OpenAI今晨推出了 GPT4.1,这是官方介绍: https://openai.com/index/gpt-4-1/

以下是关于 GPT-4.1 的详细介绍,基于官方网页内容:

GPT-4.1 简介

GPT-4.1 是 OpenAI 最新推出的 GPT 系列模型,具有以下核心特点:

  • 性能提升:在编码、指令遵循和长文本处理方面显著优于 GPT-4o 和 GPT-4.5。
  • 支持长上下文:支持处理高达 100 万个 token 的上下文(比 GPT-4o 的 128,000 token 大幅提升)。
  • 模型家族:包括 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,分别针对不同性能和成本需求优化。
  • 知识截止日期:更新至 2024 年 6 月。

性能提升

编码能力

  • SWE-bench Verified:GPT-4.1 在该基准测试中得分为 54.6%,比 GPT-4o 提升了 21.4%(绝对值),比 GPT-4.5 提升了 26.6%(绝对值)。
  • 代码生成与修改:GPT-4.1 在生成代码、处理代码差异(diff)和前端开发方面表现出色,减少了不必要的修改,并能更可靠地遵循格式要求。
  • 实际案例
    • Windsurf:GPT-4.1 在内部编码基准测试中得分比 GPT-4o 高出 60%,代码修改接受率更高,重复修改的可能性降低 50%。
    • Qodo:在代码审查任务中,GPT-4.1 在 200 个实际 pull request 中表现优于其他模型,特别是在精确性和全面性方面。

指令遵循

  • MultiChallenge 基准测试:GPT-4.1 得分为 38.3%,比 GPT-4o 提升了 10.5%(绝对值)。
  • IFEval 测试:GPT-4.1 得分为 87.4%,比 GPT-4o 的 81.0% 更高。
  • 多轮对话:GPT-4.1 在多轮对话中表现更自然,能够更好地从上下文中提取信息。

长文本处理

  • 支持 100 万个 token:适用于处理大型代码库、长文档或多模态视频内容。
  • Video-MME 基准测试:在处理无字幕的长视频时,GPT-4.1 得分为 72.0%,比 GPT-4o 提升了 6.7%(绝对值)。
  • 实际案例
    • Thomson Reuters:在法律文档多文档审查任务中,GPT-4.1 的准确性比 GPT-4o 提高了 17%。
    • Carlyle:在从复杂格式的长文档中提取财务数据时,GPT-4.1 的表现比其他模型高出 50%。

模型家族

  1. GPT-4.1
    • 性能:在所有基准测试中表现最佳。
    • 成本:比 GPT-4o 便宜 26%。
    • 适用场景:需要高性能和长上下文处理的任务。
  2. GPT-4.1 mini
    • 性能:在许多基准测试中超越 GPT-4o,延迟减少近一半,成本降低 83%。
    • 适用场景:对性能要求较高但成本敏感的任务。
  3. GPT-4.1 nano
    • 性能:最快的模型,支持 100 万个 token 的上下文,适用于分类和自动补全任务。
    • 成本:最便宜的模型,输入成本为每 1M token 0.10 美元,输出成本为 0.40 美元。

应用场景

  • 代码生成与审查:GPT-4.1 在代码生成、修改和审查方面表现出色,适合开发者和团队使用。
  • 长文档处理:适用于法律、金融和科研等领域的长文档分析。
  • 多模态任务:支持处理长视频和图像内容,适合需要视觉理解的场景。
  • 代理人任务:结合 OpenAI 的 Responses API,可以构建能够独立完成任务的智能代理人。

定价

表格

复制

模型输入成本(每 1M token)缓存输入成本输出成本(每 1M token)混合定价
GPT-4.1$2.00$0.50$8.00$1.84
GPT-4.1 mini$0.40$0.10$1.60$0.42
GPT-4.1 nano$0.10$0.025$0.40$0.12
  • 批量 API:在批量处理时,价格额外降低 50%。
  • 缓存折扣:对于重复传递相同上下文的查询,缓存折扣提高至 75%。

未来计划

  • GPT-4.5 的停用:GPT-4.5 将在 2025 年 7 月 14 日停止服务,建议开发者尽快迁移到 GPT-4.1。
  • 持续优化:OpenAI 将继续根据开发者反馈优化模型,并将 GPT-4.5 的创意性和幽默感融入未来模型。

总结

GPT-4.1 是 OpenAI 在实际应用中迈出的重要一步。它通过专注于开发者的真实需求(如编码、指令遵循和长上下文理解),为构建智能系统和复杂代理人应用提供了新的可能性。

附该网页的英中对照版,由GPT4.1-nano翻译:

作者 52nlp

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注