DeepSeek-R1物理难题挑战赛获胜

AI大模型物理能力大考:DeepSeek-R1脱颖而出!

近日,中国“深度求索”公司发布的开源大模型DeepSeek-R1引发全球关注。在DeepSeek-R1之前,OpenAI、Anthropic和Google等公司的强大语言模型都号称具备深度思考和推理能力。其中,Google的专用模型AlphaGeometry在国际奥林匹克数学竞赛中获得银牌,令人叹为观止。

继AI在数学领域的出色表现之后,人们好奇它们的物理水平如何?1月17日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛,并邀请DeepSeek-R1以及OpenAI的GPT-o1、Anthropic公司的Claude-sonnet参与测试。

八段对话挑战:AI展现思考之谜

测试方式为八段对话,其中第一段用于确认AI理解任务格式,后续七道题考察其物理知识和解决问题的能力。每道题包含文字描述和图片描述(第三、五、七题无图),图片描述由GPT-4生成,经人工校对确保准确性。

所有参与测试的模型都接收相同的题目信息,并根据答题格式提交答案。

阅卷组评比:AI思路上佳,细节失误频发

最终结果显示,DeepSeek-R1的表现最佳,在基础题中拿满分,第六题还获得了人类选手中未见到的满分,第七题得分较低可能是因为未能理解“证明”的含义。GPT-o1总分与DeepSeek相差无几,但存在一些计算错误导致失分。Claude-sonnet在前两题表现不佳,后续评分与GPT-o1相当。

将AI成绩与人类成绩对比,DeepSeek-R1可进入前三名(特优奖),GPT-o1位列前五名(特优奖),Claude-sonnet则排名前十名(优秀奖)。

专家观感:AI思路清晰,细节易出差错

阅卷组成员表示,AI的思路非常清晰,基本没有无法下手的题。但与人类不同的是,它们在简单错误上更容易犯错,比如DeepSeek-R1在第七题中尽管知道要用简正坐标求解,但在最终结果中却未能体现出这些步骤。此外,所有参与测试的AI似乎都对“严密”证明的含义缺乏理解,认为形式上的答案就足以证明。

总而言之,此次测试展现了AI在物理领域学习进步的潜力,但也揭示了其在细节处理和逻辑推理方面仍需加强。相信随着技术的不断发展,AI将能够更加精准地解决复杂问题,并与人类共同探索科学的奥秘。

文章为网友上传,如果侵权,请联系我们

发表评论