首页 >> 业界新闻 >>技术科普 >> 技术应用 | OpenAI推出的AI基准测试，却让Claude拿了第一名？！

文章

文章

搜索

业界新闻

精彩活动

行业动态

技术科普

大咖洞察

资料分享

AI前沿速览

详细内容

技术应用 | OpenAI推出的AI基准测试，却让Claude拿了第一名？！

技术应用 | OpenAI推出的AI基准测试，却让Claude拿了第一名？！

翻译技术教育与研究 2025年03月04日 08:02

小编速览

“

OpenAI推出了新的基准测试SWE-Lancer，旨在评估AI模型在真实软件工程自由职业任务中的表现。该测试包含1400多个来自Upwork的真实任务，涵盖bug修复、新功能添加等，总价值达100万美元。测试分为独立开发任务和管理任务，Claude 3.5 Sonnet表现最佳，完成度40.3%，GPT-4o完成度30.3%。OpenAI公开测评结果，展示了其模型的不足。

为了准确评估 AI 模型的“实际”编程能力，OpenAI 最近推出了一个全新的基准测试，叫做：SWE-Lancer。

SWE，全称“Software Engineering”，中文意为“软件工程”；Lancer，源自单词“Freelancer”，“自由职业者”的意思。所以，合在一起，SWE-Lancer 要评估的就是 AI 模型在真实的软件工程自由职业任务中的表现。

SWE-Lancer 基准测试由来自 Upwork 自由职业平台的超过 1400 个真实的软件开发任务构成，涵盖从 bug 修复、新功能添加到代码重构等多种类型，并具有不同的复杂度和对应的实际支付金额，这些问题总价值达 100 万美元。

640 (1).jpeg

其实 AI 领域关于评估编程能力的基准测试已经有很多了，比如 Codeforces 和 SWE-bench Verified，但他们有一个明显的特点：测试任务是孤立的，如代码生成、算法问题或特定功能的实现。这些任务能够评估模型的基本编程能力，但却无法反映真实的软件开发工作。现实世界中的软件开发涉及的任务会更复杂，包含从前端到后端、从功能到系统架构多方面内容。因此，需要一个基准测试来评估 AI 模型在全栈软件开发任务中的表现。

SWE-Lancer 应运而生。

SWE-Lancer 测试集包含两类任务：独立开发任务（IC SWE） 和 管理任务（SWE Manager）。

640 (3).png

独立开发任务会要求 AI 模型解决实际的软件问题，从简单的bug修复到复杂的新功能实现，并通过端到端的自动化测试进行评估。管理任务则让 AI 模型扮演技术经理的角色，选择最佳的技术实现方案，评估并决定多个解决方案中的最佳选项。

640 (4).png

这些任务的奖励基于真实世界的支付金额，反映了任务的实际经济价值。任务越难，支付金额就越高。

640 (2).jpeg

测评结果

上测评结果。

真实世界中经济价值100万美元的软件开发任务，Claude 3.5 Sonnet 完成度最高，但也仅有40.3万美元的完成度，百分比40.3%；第二名为 o1，完成度38%；接下来说不会思考的 GPT-4o，完成度30.3%。

640 (5).png

Claude 3.5 Sonnet 模型的编程能力再次在这个测评中得到了验证。

640 (6).png

最后，不得不说，OpenAI 能把这次测评的结果如此“光明正大”的公布，主动承认自己的不足，勇气可嘉！

特别说明：本文仅用于学术交流，如有侵权请后台联系小编删除。

上一篇技术科普 | 人工智能翻译在应急管理通信领域能否成为常态？下一篇行业观察 | 语言≠思维，大模型学不了推理：一篇Nature

企业新闻

关注我们

关于我们

业界新闻

更多

一号通知 | 大语言模型辅助外语教学与课
口译技术 | 技术哲学视角：口译技术的

口译技术，作为翻译产业与学术界的新兴热点，正逐渐改变着口译的生态格局。“名” 与 “实” 有助于口译
行业动态 | Translated推出L

2024年Translated推出Lara翻译AI，在NVIDIA平台训练。私人投资公司 Ardia
行业动态 | 卢宇：人工智能时代，教师何

以生成式人工智能为代表的新一代信息技术正在迅速演进和发展，已经逐步成为推动教育革新和转型的驱动力。长
期刊动态丨2024国内外语类专业期刊影响

数据来源：中国知网2024年12月
行业规范 | 我国首份教育领域人工智能应

近日，2024年北京市数字教育工作推进会召开，正式发布《北京市教育领域人工智能应用指南》，明确人工智
行业文献 | 王华树：文化陷阱与突围之路

研究认为，翻译教育应积极应对大语言模型带来的挑战，破除西方中心主义的文化霸权，增强文化自信，推动翻译
技术应用 | 如何用AI赋能口译平行语料

传统的口译平行语料库建设过程十分繁琐。总结AI在建设语料库中无疑发挥了重要作用，它能够高效地清洗语料
第二期：人工智能与计算机辅助翻译

2024年11月30日，甘肃省翻译工作者协会2024年会暨翻译教育教学研讨会在兰州城市学院召开。北京
技术应用 | 精准定位！那些必应百度搜索

a搜索不会停，效率不能低！
小伙伴们，信息爆炸时代，知识获取如海底捞针。掌握精准搜索技巧，信息探寻

关于我们

更多

咨询电话：15811379550

公司邮箱：yuxiang.ding@lingotek.cn

翻译技术教育研究院

seo

seo