研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT

noBug

2023-12-22 / 0 评论 / 404 阅读

12/22

**划重点:**
1. 📉 卡内基梅隆大学研究指出，Gemini Pro在基准测试中不如GPT-3.5，远远落后于GPT-4。
2. 🔄 与谷歌在Ge[]mini发布[]会上提供的信[]息相矛盾，强[]调了中立基准[]测试机构或流[]程的必要性。[]
3. 🧐 研究发现Gemini Pro在数学推理和多选题方面表现不佳，对自身基准的依赖不足以可靠衡量语言模型性能。

站长之家(ChinaZ.com) 12月22日消息:根据卡内基梅隆大学的最新研究报告，谷歌最新推出的大型语言模型Gemini Pro在基准测试中未能达到预期水平，不仅落后于GPT-3.5，还远远不及GPT-4。

Gemini[] Pro的研究[]结果与谷歌在[]Gemini[]发布会上所提[]供的信息相矛[]盾，凸显了对[]中立基准测试[]机构或流程的[]迫切需求。G[]emini团[]队声称即将推[]出的&quo[]t;Ultr[]a"[];版本将在各[]种任务上超越[]GPT-4，[]但谷歌已经对[]Ultra的[]基准结果进行[]了操纵。

尽管谷歌声称[]Gemini[] Pro在性能[]上可与或优于[]OpenAI[]的GPT-3[].5，但卡内[]基梅隆大学的[]研究显示，在[]研究时Gem[]ini Pro在所有[]基准测试中都[]不如Open[]AI的GPT[]-3.5Tu[]rbo。

研究还发现，[]Gemini[] Pro在基本[]数学推理方面[]表现不佳，这[]是形式逻辑和[]初等数学任务[]所需的能力。[]在主题类别方[]面，Gemi[]ni Pro只在安[]全研究和高中[]微观经济学方[]面优于GPT[]-3.5，而[]在其他所有类[]别中都落后。[]

一些基准测试[]差异可能是由[]于谷歌的保护[]机制导致模型[]在MMLU评[]估中无法回答[]一些问题。然[]而，研究人员[]还发现，Ge[]mini Pro在多选[]题、大数字数[]学推理、任务[]提前终止以及[]侵略性内容过[]滤导致的失败[]响应方面表现[]不佳。

Gemini[] Pro模型的[]准确性与GP[]T3.5Tu[]rbo相当，[]但略逊一筹，[]并且远不如G[]PT-4。然[]而，在某些长[]而复杂的推理[]任务中，Ge[]mini表现[]优于GPT3[].5Turb[]o，并在无过[]滤响应的多语[]境任务中表现[]出色。

这项研究也可能是GPT-4Turbo的第一个MMLU基准测试。根据这个基准测试，最新的OpenAI模型在重要的语言理解基准测试中明显落后于原始的GPT-4。尽管有这些结果，GPT-4Turbo目前在聊天机器人领域评分最高，显示基准测试的价值有限。

这一研究结果强调了仅仅依赖大公司自我报告的基准测试并不是衡量巨型语言模型性能的可靠手段。同时，它也表明，尽管谷歌竭尽全力，但其在追赶OpenAI方面仍然表现不佳，对整个AI行业而言并非好消息。

研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT

评论区

分类

存档

标签

搜索

最新评论

​ 研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT

评论区

分类

存档

标签

搜索

最新评论

研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT