打造中国最大的
AI交流社区平台

斯坦福发布最新大模型排行榜

来自斯坦福的团队,发布了一款LLM自动评测系统——AlpacaEval,以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜 AlpacaEval,它是一种基于 LLM 的全自动评估基准,且更加快速、廉价和可靠。

在斯坦福的这个 GPT-4 评估榜单中:
•GPT-4 稳居第一,胜率超过了95%;胜率都在 80% 以上的 Claude 和 ChatGPT 分别排名第二和第三,其中 Claude 以不到 3% 的优势超越 ChatGPT。
•值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的 WizardLM。在所有开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco。
•而在开源模型中的佼佼者 Vicuna 发挥依然稳定,凭借着超过70%的胜率排在第六,胜率紧追 Guanaco 65B。
•最近大火的 Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。

斯坦福发布最新大模型排行榜插图

赞(0) 打赏
未经允许不得转载:AI爱好者 » 斯坦福发布最新大模型排行榜

评论 抢沙发

欢迎来到AI爱好者

我们旨在打造一个最具实力的中文AI交流社区平台,致力于为所有AI爱好者,创业者和使用者提供优质服务. 我们的宗旨是为广大用户提供免费解决方案,您可以通过问答形式提出与AI相关的任何问题.

AI社区AI工具

安全服务战略合作伙伴:麒麟盾 SCDN

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

微信扫一扫打赏

登录

找回密码

注册