
技术革命尚未成功,却有可能走向毁灭?
在人工智能AlphaGo时代,作为一个专注于下围棋的判定式AI,AlphaGO的通过自我训练的方式,棋力飞速增长,先后战胜了李世石、柯洁等人类的顶级棋手。当时,曾有人预言,AI可以通过自我训练的方法不断提升能力,甚至突破“技术奇点”,不过在当前的生成式AI中,这一招却无法奏效。
最近在预印本网站arXiv上发布的一篇题为《The Curse of Recursion: Training on Generated Data Makes Models Forget》(递归的诅咒:用AI生成的数据训练导致模型遗忘)的论文。论文指出:如果使用AI生成的内容作为语料训练AI大模型,会导致“模型崩溃”现象发生。
AI生成的内容可能会形成一种“信息污染”。然而,不知不觉间,互联网空间已经有大量AI生成的内容,且随着AIGC的发展,将越来越多。AI大模型的训练,又有赖于更多的网络数据。这是否意味着,AI大模型有朝一日将不可避免地只能接受大量AI自己生成的内容?
1 信模型崩溃:错误成为执念
这篇论文为于5月27日首次提交arXiv网站,并于5月31日进行了更新。论文作者来自牛津大学、剑桥大学等高校。论文指出,在训练中使用模型生成的内容会在结果模型中造成不可逆的缺陷。
网络上越来越多的内容正在做AI大模型生成,不仅是文字,也可能是声音、画面。目前,包括GPT-4在内的大模型,主要是在人类生成的文本上进行训练,未来多数模型的数据训练也来自网络,它们将不可避免地接收到在其前任大模型生成的数据。
然而,论文作者们观察到了“模型崩溃”的现象,它是一种代际退化的过程,模型生成的数据污染了下一代模型的训练集,导致它们误解了现实。——模型并没遗忘之前的数据,但是会把一些错误的信息误认为真实,并不断加强认知,最终形成“思想钢印”,以至于完全无法纠错。
2 为何会崩溃:统计误差
为什么模型会“崩溃”?现阶段,AI的“神经网络”还处在对人类思维活动的初级模仿中,它的核心仍然是一种统计程序。
论文认为,用AI生成内容来训练AI,会产生“统计近似误差”(Statistical approximation error ),因为在统计的过程中,越大概率的内容被进一步强化,小概率的内容被不断忽视,这是模型崩溃的主要原因。此外,还会产生“函数近似误差”(Functional approximation error ),这指的是模型的函数在计算过程中会不断将计算的错误保留下来。
这两个原因导致的后果就是随着模型的不断训练,错误也不断一代又一代地累积起来,从而丧失了自我纠错的能力。
更重要的是,这种问题是无法避免的,因为根据论文给出的数据显示,即使有非常大的数据样本,这种错误仍然会产生。
3 崩溃的三种结果
模型崩溃可能产生以下的结果:
一是多样性丧失。模型崩溃会导致生成的文本多样性丧失。大模型的长处是捕获人类语言中的广泛可能性,具备超强的“想象力”。然而,当模型崩溃时,它往往会生成重复性很高且多样性很低的内容。
二是准确性下降。模型崩溃,生成的文本会越来越不准确。模型可能会开始引入一些根本不应该存在的或者无意义的信息,严重降低内容质量。
三是影响微调效果。模型会自我强化认知,会不断经过几代人的模型倾向于从原始数据中生成更可能的序列,但可能会引入它们自己的错误,进一步妨碍了微调模型的准确性和可靠性。
总的来说,在大型语言模型的背景下,模型崩溃破坏了它们生成多样化和准确文本的能力,这对于各种自然语言处理应用至关重要。
除了模型崩溃现象之外,论文还提到了当前研究中发现的两个类似的现象,一个称为“灾维性遗忘”,另一个是“数据投毒”。有意思的是,这两个现象都与使用AI生成的数据训练AI有关。有媒体报道的时候,称这种“AI训练AI”的方式为“粪口循环”。
论文举了一个“灾难性遗忘”的例子,这个例子也非常值得关注:
把这个例子翻译成中文:
以下是一个受模型崩溃影响的OPT-125m模型文本输出的例子——模型会随着代数的增加而退化,每一代新模型都是基于前一代模型生成的数据进行训练的。
输入:一些开始于1360年之前——通常由一位主建筑师和一小组流动石匠,加上当地教区的劳动力完成,这是根据Poyntz Wright的说法。但是其他作者反驳了这个模型,他们建议主要的建筑师设计教区教堂塔楼是基于早期的垂直式样例。
输出:
第0代:如伦敦圣约翰大教堂的复兴建筑。最早的垂直复兴建筑样例发现于18世纪的圣母教堂,位于根西岛,可以追溯到19世纪晚期。垂直教堂有两种类型:那些…
第1代:如罗马的圣彼得大教堂或布宜诺斯艾利斯的圣彼得大教堂的建筑。没有证据显示这些建筑是在教皇英诺森三世统治期间建造的,但有可能在他的继任者教皇英诺森的统治期间建造的。
第7代:英国的建筑。在接受《纽约时报》采访时,赖特说:“我认为我可以做我想做的事情没有任何问题。只是对我来说并不适用。”他补充说:“我不知道你是否可以称之为有趣。
第9代:建筑。除了是世界上一些最大的黑尾野兔、白尾野兔、蓝尾野兔、红尾野兔、黄尾野兔的家园之外,
尽管论文里指出,“灾难性遗忘”的机制跟模型崩溃并不一样,但呈现出的现象却有某种相似之处。在这种自我循环训练的过程中,内容开始逐渐离谱,当内容到第7代(也就是第7次循环训练)的时候,原始内容已经基本不见了,到了第9次循环时,已经产生了一些风马牛不相及的内容。
4 绕不开的信息污染?
信息污染无处不在,这并非危言耸听,即使在当AI还不太聪明的时代,低质量的内容已经在充斥着互联网空间。在大模型广泛应用之前,人类已经通过标题党、恶意曲解、选择性剪辑等方式,在网络上制造了无数的信息污染,形成了各种大大小小的信息茧房。
论文认为,要想避免模型崩溃的现象,需要区分由大模型生成的数据和其他数据,最好能直接使用人类生成的原始数据。无论何时,都需要保证一个由人类生成的、多样的和有代表性的数据集,作为大模型的训练数据。
特别强调的是,在训练一个大模型时,不仅要避免由本体生成的数据,同时还要避免由其他模型生的数据,因为这一样会导致模型崩溃。
一个很危险之处在于,当前随着AI生成的内容的应用越来越广,“失控”可能无法避免。AI生产内容的效率仍然有很大的提升空间,“性价比”只会越来越高。在这种情况下,利用AI生产内容将很快成为一个普遍的操作。尽管AI到底能不能生成精品内容仍然存疑,但AI在内容数量方面的优势恐怕将无可匹敌。
另一方面,当前一些机构正在利用各种技术手段对互联网进行信息污染,AI会让他们如虎添翼。因此,这种动作不仅不会停下来,还几乎必然会进一步加剧。
目前已经有一些网站试图识别由AI创作的内容,这将是一场猫鼠游戏。不过,识别单一的内容是否由AI生成,这或许在技术上可以实现。不过,这样的内容一旦超过一定的比例,有可能导致AI无法得到一个完整而“纯净”的语料库。特别是对于除英语之外的其它语言,在互联网上本来就只有较少的优质内容可以作为语料。
这甚至可能产生一种“死亡循环”,AI大模型在迭代过程中将无法绕开这道难关——以当前AI发展的速度来看,这种现象完全有可能在三到五年内出现。
这恐怕是AI大模型研发路上命中注定有此一劫。如何破解,有待观察。
5 额外的思考
近期,图林奖得主,AI界名人Yann LeCunn认为,包括ChatGPT在内的自回归模型有巨大的局限性。从这篇论文看,这类模型虽然是“生成式AI”,但并不能够生成“新的内容”,也就是说,没有办法产生真正意义上的“信息增量”。
今年2月,著名科幻作家特德•姜(Ted Chiang)撰写了一篇名为《ChatGPT只是互联网的一张模糊缩略图》的评论文章,文章认为,ChatGPT等大语言模型,实质是对互联网语料库的有损模糊压缩,如同JPEG格式之于原始高清图片。
从这个角度上看,当未来的某一天,AI大模型的生成能力达到一种新的境界,可以产生增量,甚至可以用来给AI自我训练时,也许也是AI的“技术奇点”到来的时刻。那时,我们实现AGI的愿景也将实现。
白熊观察员(微信公众号Baixiong42)的另一个思考,虽然这篇论文主要在研究AI被信息污染的危险,但对人类未必不是一处警醒。当前,人类的大脑也无时不刻不被各种垃圾信息所冲击。这些信息也在不断给人创造信息茧房。现实中,为什么有人会对“蜥蜴人”一类的传说深信不疑,这也是一种“模型崩溃”的表现。
信息污染已经严重影响互联网信息的质量——我们管现在的世界叫做“信息社会”,信息本身就是社会最重要的组成要素,尽管看不见摸不着,却是社会的基石。如果信息的真实性、准确性、多样性被破坏,社会是否也会遭遇危机呢?
欢迎免费使用GPT对话,感受ChatGPT的魅力!AI爱好者 – 最具实力的中文AI交流社区平台 (aiahz.com)
ChatGPT国内版本,无需梯子,也能体验Chatgpt-AI爱好者 (aiahz.com)
长按扫描二维码进群领资源
