
人工智能与人类:哪一个在某些技能上表现更好?
随着ChatGPT的爆炸性崛起,人工智能一直在让大众感受到它的存在,尤其是在人类能力的传统堡垒——阅读理解、语音识别和图像识别。
事实上,在上图中,很明显,人工智能在相当多的领域已经超过了人类的表现,而且在其他地方似乎也将超过人类。
如何测试性能
使用上下文人工智能的数据,我们可以可视化人工智能模型开始超过数据库基准的速度,以及它们是否达到了人类的技能水平。
每个数据库都是围绕某一技能设计的,如手写识别、语言理解或阅读理解,而每个百分比分数与以下基准形成对比:
- 0%或“最大执行基线”
这相当于人工智能在创建数据集时最著名的性能。
- 100%
该标记等于数据集上的人员表现。
通过在这两点之间创建一个尺度,可以跟踪每个数据集上人工智能模型的进展。直线上的每一点都意味着最好的结果,随着直线的上升,人工智能模型越来越接近人类的表现。
以下是人工智能何时开始在所有八项技能中匹配人类表现的表格:
Skill | Matched Human Performance | Database Used |
---|---|---|
Handwriting Recognition | 2018 | MNIST |
Speech Recognition | 2017 | Switchboard |
Image Recognition | 2015 | ImageNet |
Reading Comprehension | 2018 | SQuAD 1.1, 2.0 |
Language Understanding | 2020 | GLUE |
Common Sense Completion | 2023 | HellaSwag |
Grade School Math | N/A | GSK8k |
Code Generation | N/A | HumanEval |
从图表中可以看出,自2010年以来取得了多大进展。事实上,这些数据库中的许多——比如SQuAD、GLUE和HellaSwag——在2015年之前都不存在。
为了应对过时的基准,一些较新的数据库不断更新新的相关数据点。这就是为什么人工智能模型在某些领域(小学数学和代码生成)在技术上还没有与人类表现相匹配——尽管它们正在发展中。
是什么导致人工智能超越人类?
但在过去几年里,是什么导致了人工智能能力的快速增长?
得益于计算能力、数据可用性和更好的算法的革命,与十年前相比,人工智能模型更快,有更大的数据集可供学习,并在效率方面进行了优化。
这就是为什么头条新闻经常谈论人工智能语言模型在标准化测试中与人类表现相匹配或优于人类表现的原因。事实上,人工智能开发人员面临的一个关键问题是,他们的模型不断超越为测试它们而设计的基准数据库,但在某种程度上仍然无法通过现实世界的测试。
由于预计未来几年将在计算和算法方面取得进一步进展,这种快速进展可能会继续下去。然而,人工智能进步的下一个潜在瓶颈可能不是人工智能本身,而是缺乏可供模型训练的数据。