打造中国最大的
AI交流社区平台

文心一言、GPT3.5及GPT-4的应用测评对比

文心一言、GPT3.5及GPT-4的应用测评对比插图
文心一言、GPT3.5及GPT-4的应用测评对比插图1OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API;国内百度于 3 月 16 日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5(ChatGPT 的原模型)和 GPT-4 的问答表现分别进行了测评(文心一言、GPT3.5及GPT-4的应用测评对比)。测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。下载链接:文心一言、GPT3.5及GPT-4的应用测评对比从算力、算法、数据及应用看AIGC(2023)《OpenAI:GPT-4技术报告(2023)》

人工智能深度:AIGC行业综述—开启AI新篇章(2023)

文心一言发布,国内厂商离复现ChatGPT走多远

ChatGPT的宏观视角

ChatGPT新兴需求驱动机会

算力革命:从ChatGPT看芯片产业机遇(2023)1、GPT-4技术报告(英)-OpenAI(2023)2、GPT-4技术报告(中)-OpenAI(2023)OpenAI发布GPT-4,人工智能未来将至深度:ChatGPT认知白皮书(2023)《GPT-4技术及报告合集》

1、GPT-4震撼发布,AI算法之巅2、OpenAI发布GPT-4,大模型发展进入新的里程碑3、OpenAI:GPT-4技术报告

《129份重磅ChatGPT专业报告》文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式 AI 模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。根据测试结果可以看出,三大模型在客观问题问答方面都有出色表现,但在数学计算、代码生成、情感理解和推理方面均有待提升。对比来看,文心一言在图像创作、归纳总结等问题中表现较为出色,但在逻辑推理领域还有待加强。在具体应用中,三大模型均能基本胜任 AI 助手、售后客服、产品推荐等场景需求,但在文本修饰及古诗词理解领域仍有提升空间。我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量及模型训练水平持续提升,各模型性能都有望进一步优化。

文心一言、GPT3.5及GPT-4的应用测评对比插图2

1、常识和创作

常识和创作部分我们分别对 3 个模型提出基于客观事实的常识问答、给定主题的文字创作问题、给定主题的图像创作问题,以评价模型对已有知识的表述能力和图文生成能力。

常识题:中国有多少个省?3个模型都进行了正确的回答,其中 GPT-4 生成的答案最为严谨和详细,不仅说明了“截止 2021 年”(由于 GPT-4 的知识截止 2021 年)、优先列举了省份,且对具体省级行政区的名称进行了详尽的列示。

文心一言、GPT3.5及GPT-4的应用测评对比插图3
文心一言、GPT3.5及GPT-4的应用测评对比插图4

文字创作题:请写一个刘红发大财的故事从 3 个模型的回答来看,文心的分词能力仍有改进之处,没有对“刘红”和“发大财”进行很好的分词,而是以“刘红发”为主角进行创作。从情节设置的角度而言,GPT-4 的细节更加丰富、转折也更多,但由于生成 token 数的限制,这个故事并没有写完。此外,3 个模型的故事都体现了积极正面的价值观。

图像创作题:请画一张古典美女的油画

目前只有文心一言具备文生图的能力,GPT-3.5 依然是文生文。GPT-4 理论上可以输入文字和图片,但目前图片输入的功能尚未对用户开放。

文心一言、GPT3.5及GPT-4的应用测评对比插图5
文心一言、GPT3.5及GPT-4的应用测评对比插图6
文心一言、GPT3.5及GPT-4的应用测评对比插图7

2、归纳和推理我们分别向 3 个模型提供演绎推理、情感推理、基于具体场景的逻辑推理问题,以及财务数据类的总结归纳问题,用以评价各模型归纳推理能力。演绎推理题:假设在一个餐厅,如果一个人点了牛排,则他一定点了沙拉。如果一个人没有点沙拉,则他一定没有点牛排。现在有一个人点了沙拉,那么他是否一定点了牛排?从本题回答来看,文心在演绎推理方面的能力相对较弱,GPT-3.5 和 4 持平。

文心一言、GPT3.5及GPT-4的应用测评对比插图8
文心一言、GPT3.5及GPT-4的应用测评对比插图9

文心一言、GPT3.5及GPT-4的应用测评对比插图10详情参看“文心一言、GPT3.5及GPT-4的应用测评对比”报告,对文心一言、GPT-3.5 和 GPT-4 的问答表现分别进行了测评,测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。

文心一言、GPT3.5及GPT-4的应用测评对比插图11
赞(2) 打赏 直达链接
未经允许不得转载:AI爱好者 » 文心一言、GPT3.5及GPT-4的应用测评对比

评论 抢沙发

欢迎来到AI爱好者

我们旨在打造一个最具实力的中文AI交流社区平台,致力于为所有AI爱好者,创业者和使用者提供优质服务. 我们的宗旨是为广大用户提供免费解决方案,您可以通过问答形式提出与AI相关的任何问题.

AI社区AI工具

安全服务战略合作伙伴:麒麟盾 SCDN

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

微信扫一扫打赏

登录

找回密码

注册