OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API;国内百度于 3 月 16 日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5(ChatGPT 的原模型)和 GPT-4 的问答表现分别进行了测评(文心一言、GPT3.5及GPT-4的应用测评对比)。测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。下载链接:文心一言、GPT3.5及GPT-4的应用测评对比从算力、算法、数据及应用看AIGC(2023)《OpenAI:GPT-4技术报告(2023)》
人工智能深度:AIGC行业综述—开启AI新篇章(2023)
文心一言发布,国内厂商离复现ChatGPT走多远
ChatGPT的宏观视角
ChatGPT新兴需求驱动机会
算力革命:从ChatGPT看芯片产业机遇(2023)1、GPT-4技术报告(英)-OpenAI(2023)2、GPT-4技术报告(中)-OpenAI(2023)OpenAI发布GPT-4,人工智能未来将至深度:ChatGPT认知白皮书(2023)《GPT-4技术及报告合集》
1、GPT-4震撼发布,AI算法之巅2、OpenAI发布GPT-4,大模型发展进入新的里程碑3、OpenAI:GPT-4技术报告
《129份重磅ChatGPT专业报告》文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式 AI 模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。根据测试结果可以看出,三大模型在客观问题问答方面都有出色表现,但在数学计算、代码生成、情感理解和推理方面均有待提升。对比来看,文心一言在图像创作、归纳总结等问题中表现较为出色,但在逻辑推理领域还有待加强。在具体应用中,三大模型均能基本胜任 AI 助手、售后客服、产品推荐等场景需求,但在文本修饰及古诗词理解领域仍有提升空间。我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量及模型训练水平持续提升,各模型性能都有望进一步优化。

1、常识和创作
常识和创作部分我们分别对 3 个模型提出基于客观事实的常识问答、给定主题的文字创作问题、给定主题的图像创作问题,以评价模型对已有知识的表述能力和图文生成能力。
常识题:中国有多少个省?3个模型都进行了正确的回答,其中 GPT-4 生成的答案最为严谨和详细,不仅说明了“截止 2021 年”(由于 GPT-4 的知识截止 2021 年)、优先列举了省份,且对具体省级行政区的名称进行了详尽的列示。


文字创作题:请写一个刘红发大财的故事从 3 个模型的回答来看,文心的分词能力仍有改进之处,没有对“刘红”和“发大财”进行很好的分词,而是以“刘红发”为主角进行创作。从情节设置的角度而言,GPT-4 的细节更加丰富、转折也更多,但由于生成 token 数的限制,这个故事并没有写完。此外,3 个模型的故事都体现了积极正面的价值观。
图像创作题:请画一张古典美女的油画
目前只有文心一言具备文生图的能力,GPT-3.5 依然是文生文。GPT-4 理论上可以输入文字和图片,但目前图片输入的功能尚未对用户开放。



2、归纳和推理我们分别向 3 个模型提供演绎推理、情感推理、基于具体场景的逻辑推理问题,以及财务数据类的总结归纳问题,用以评价各模型归纳推理能力。演绎推理题:假设在一个餐厅,如果一个人点了牛排,则他一定点了沙拉。如果一个人没有点沙拉,则他一定没有点牛排。现在有一个人点了沙拉,那么他是否一定点了牛排?从本题回答来看,文心在演绎推理方面的能力相对较弱,GPT-3.5 和 4 持平。


详情参看“文心一言、GPT3.5及GPT-4的应用测评对比”报告,对文心一言、GPT-3.5 和 GPT-4 的问答表现分别进行了测评,测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。
