OpenAI 推出 SWE-Lancer:一个面向真实世界自由职业编码的全新 AI 基准


发现顶级金融科技新闻和事件!

订阅金融科技周刊的新闻通讯

由摩根大通、Coinbase、黑石、Klarna 等高管阅读


在零工经济中衡量人工智能编码技能的新标准

人工智能正以一种旨在测试其在实际任务中编码能力的新基准进入自由软件开发领域。该基准名为 SWE-Lancer,由OpenAI引入,使用超过 1,400个来自Upwork的实际自由软件工程任务 来评估AI表现,累计价值达 100万美元的支付

此举旨在提供更清晰的AI在专业环境中的能力图景。SWE-Lancer不依赖合成编码问题,而是使用由真实公司完成并支付的任务,提供了更贴近实际的AI软件工程效果衡量

真实自由职业工作,真实挑战

大多数AI编码基准专注于定义明确、解决方案可预测的问题。SWE-Lancer则不同。数据集涵盖了从 50美元的漏洞修复到复杂的32,000美元功能实现的各种任务。有些任务测试AI的编码能力,而另一些则需要决策——模拟工程经理在不同技术方案中做出选择的角色

为了确保准确性,由经验丰富的工程师进行三重验证的端到端测试,以及对管理决策的评估都与原招聘经理的决定进行比对。该基准不仅衡量AI是否能写出代码,还评估这些代码是否达到付费客户的标准。

AI模型表现如何?

结果很明确:即使是最先进的AI模型也难以应对这些任务。虽然AI已证明能生成代码片段和协助调试,但在处理自由职业工程工作的全部复杂性时仍然力不从心。需要创造力、问题解决能力和长期规划的任务仍然具有挑战性。

这一差距具有重大意义。AI在软件开发中的角色不断增长,但像SWE-Lancer这样的基准表明,完全自主编码仍然遥不可及。目前,人类工程师仍然至关重要,尤其是在超出简单代码生成的复杂项目中。

开源以促进研究和经济洞察

为了鼓励进一步研究,SWE-Lancer的团队已公开关键资源。研究人员可以访问一个统一的Docker镜像和一个名为 SWE-Lancer Diamond 的基准子集,用于评估。通过将AI性能映射到实际的货币价值,这一基准为AI可能对经济和软件工程就业市场的影响提供了新见解

除了软件开发,这些洞察对金融科技公司和依赖自由人才的企业也具有价值。随着AI模型的改进,企业将需要更好的方法来衡量自动化的财务和运营影响。SWE-Lancer为理解AI如何融入基于合同的工作提供了基础。

迈向AI在软件开发中未来的一步

SWE-Lancer的发布凸显了一个重要现实:AI在不断进步,但在应对自由软件工程的实际需求方面仍然存在困难。虽然AI工具可以协助开发者,但尚不能可靠地取代熟练的专业人士

随着AI研究的持续推进,像SWE-Lancer这样的基准将帮助跟踪进展、优化模型,并引导关于自动化经济影响的讨论。AI是否能完全取代自由开发者仍未可知,但目前,软件工程中的人类元素仍不可替代

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论