
从技术角度解释人工智能作品在生成过程中包含的权利
引言
“AI孙燕姿”突然成为爆款仿佛打开了新娱乐的大门,孙燕姿味儿的唱腔可以客串到周杰伦的歌曲中,让听众体会一把口齿清晰的听觉享受,也可以串门到陶喆歌曲中走一波R&B风格,也不排除可以到各大广场舞神曲中串一把味。年初的时候,网友们已经着实被ChatGPT惊吓了一波,感叹人工智能的发展已经到了可以立即取代人的地步。这一波“AI孙燕姿”似乎又为人工智能挽回些许好感,好像它也能造福我们的世界,让娱乐变得更加简单和廉价。其实这两波人工智能带来的热潮都只是深度人工智能世界的开端,两者的底层技术具有高度相同之处,因此而产生的法律问题也有高度重叠性。
2023年5月20日发布的《生成式人工智能服务管理办法(征求意见稿)》已经对包括ChatGPT和“AI孙燕姿”在内的生成式人工智能产品研发者、利用生成式人工智能产品提供服务者的行为进行约束,立法已经覆盖生成作品的所有阶段,所有的技术使用主体都应当对创作素材的应用和生成产品的过程进行合规。本文着眼于探讨人工智能产品及其生成过程在知识产权上的潜在法律风险。
一、“AI孙燕姿”的作品生成方式
各大音乐平台上的爆款“AI孙燕姿”音乐作品由孙燕姿的声线“合成”了其他歌手演唱的歌曲,带来“旧瓶装旧酒”的新体验。不少听众听的上头以后一直催更up主,甚至点歌指定歌手和歌曲。有不少技术大佬也提供了实现“AI孙燕姿”演唱不同作品的制作方法,甚至提供数据和素材,供广大催更群众“自给自足”“自娱自乐”。从技术背景上看,“AI孙燕姿”新作品的实现需要用到:1)孙燕姿的声线;2)原歌曲的人声;3)原歌曲的背景音乐,三种素材。而实现作品的方式,其实也非常简单,无非是:1)制作孙燕姿的AI人声;2)替换原唱的人声;3)合成作品。
(一)ChatGPT与“AI孙燕姿”作品生成方式的相似性
“AI孙燕姿”和ChatGPT生成作品过程的技术底层逻辑有相似之处,都是对现有数据的收集(收集孙燕姿的作品,并提取人声的干声、切割,作为训练素材备用),再进行数据训练(使用干声素材进行演唱训练),再进行推理模型训练(将其他歌手的歌曲中的人声部分提取出来以后,替换成前一步训练后的干声),最后生成“孙燕姿”味儿的任何作品。也就是通过以下三个模块实现生成作品:
而ChatGPT生成作品对于客户端来说操作更加简单,因为训练过程都由ChatGPT产品的研发公司主导,完成了从最早的数据处理、收集到数据训练,再到推理模型训练的全部流程,因此用户只需要输入简单的关键词作为触发作品生成的条件即可获取作品(生成过程如下图所示):
(二)“AI孙燕姿”作品生成的技术路径(与ChatGPT的不同之处)
创作出“AI孙燕姿”的作品使用到的创作软件包含两个步骤,第一步是“训练”模型,第二步是“推理”模型。第一个步骤必须满足收集原始数据这一前提条件(即:孙燕姿真人演唱中的声音素材),再使用收集的数据进行“炼丹”,训练出接近孙燕姿的声线模型。然后进入第二个步骤,使用第一个步骤中训练获得的可识别音色模型对另一作品中的原声声线进行替换。经合成形成最后的生成作品。笔者在下文中将使用到的图片和说明都是来自于b站某技术大佬的科普视频,用以说明人工智能作品生成的过程[1]。生成过程概览如下图所示:
1、数据收集
A. 收集孙燕姿演唱的歌曲中带伴奏的原声,分割伴奏和原声,提取人声(干声)
B. 将干声进行切割,一般切割成不超过10秒的小块
C. “Vocals”文件将被分割成若干个小的干声文件(为后续干声训练模型使用)
2、数据训练模型
A. 准备数据集:使用一款具有训练创作功能的软件整合包,下载以后将上一步中切割好的音频素材的文件夹拖入整合包中的数据文件夹中。启动整合包后,下图中的数据集可以自动被识别出来。再选择“vl”作为训练输出分支。点击“数据预处理”。
B. 识别数据集:这一过程是将原始数据变成后续“训练模型”和“推理模型”可以识别的张量数据。待进度条加载到100%,预处理完成。
C. 设置参数,写入配置文件:点击“写入文件”选定待训练模型(选定已经经过预处理、待训练的声音模型)
注意
1)训练过程中,设置每隔200步生成一次评估日志;
2)训练过程中,设置每隔800步保存一个模型(如果没到800步,无法生成一个模型!);
3)训练过程中,按照硬盘容量设置保存的模型数量,一个模型占有1G的空间(自动保存满10个模型后,超出的模型将被删除,因此不会占用过多硬盘空间);
4)批量大小的数据,按照显卡配置进行设置,设置成小于显卡内存的数字(例如:12G内存可以设置成6,如果内存只有4G就别玩这个了!)。
D. 开始训练:点击“从头开始训练”
E. 训练中的数据读取:检查训练模型的数量和质量,获取若干个用于后续推理使用的模型
注意
1)开始训练后,弹出的黑框,先报错,再正式开始训练;
2)注意每一步的训练质量,“step 200”显示的“loss”数值是每200步训练得出的训练成果;
3)“loss”数值一般超过30都表示和歌手原声差距较大,小于30会比较接近原声,数值越低越接近原声,数值到达个位数已经具有很高的使用价值和商业价值;且数值一般不可能达到“0”(代表训练出歌手原声)
4)以每800步产生的一个模型得到的“loss”值判断该模型的训练质量,如果对数值满意可以停止训练,直接进行下一步的推理使用。
3、模型推理(使用“数据训练模型”训练后获取的模型)
A. 选定训练后的模型(音色),加载模型。提前收集待替换的歌曲,并按照第1步的方法分离伴奏和干声,将干声拖入“单个音频上传”
B. 音频转换:点击“音频转换”,将训练后的音色替换原歌手的干声音轨
4、生成作品
打开视频/音频编辑软件,分别将待替换歌曲的伴奏,以及上一步经过训练的音色模型进行合并,得到最终的生成作品(暂不考虑移调和修音等音乐技术处理)。
二、“AI孙燕姿”生成作品的独创性
纵观整个作品生成过程,相比之前的ChatGPT几乎“全自动”式的生成作品方式 ,“AI孙燕姿”的作品需要创作者更多的能动性。从直观上看,创作过程更加复杂了,而ChatGPT只需要简单输入几个关键词即可生成长篇的文字作品。
(一)类比ChatGPT生成作品的独创性
笔者在之前的文章中已经对ChatGPT的生成环节进行分析,而ChatGPT生成作品的创作者也在对应创作环节给予独创性的“贡献”,如下图所示:
按照笔者在《人的智能VS人工智能,ChatGPT生成作品的著作权如何归属》一文提出,对独创性的认定逻辑,应当采用英国法下的“劳动力、技能、判断”为标准,评价哪些主体对于最后的生成作品给予足够的“独创性”贡献,这些贡献除了让作品本身满足著作权法意义下“作品”之外,还使得“贡献者”得以获取“作者”的身份。回顾ChatGPT生成逻辑,也正因为客户端输入的内容对原创性要求较低,且贡献较少,不满足“最低限度”的贡献。所以笔者认为ChatGPT生成作品的著作权应当归属于ChatGPT产品的研发公司工作,作为法人作品保护,只不过实践中类似产品开发者往往会在使用条款中把产生的作品的著作权自动授权给用户。
(二)“AI孙燕姿”生成作品的独创性(与ChatGPT的不同之处)
相比之下,从“AI孙燕姿”生成作品的创作过程来看,创作者经过“判断”选择了某一个歌手的声线,并进行模型训练,全程监督训练步骤付出了一定的“劳动力”,并“判断”最适合的模型(“loss”值最低的模型)用于作品生成。上述创作者对作品的“贡献”已经足以满足“最低限度”的“独创性”。且,不同的模型训练者选取不同的素材,设定不同的参数,经历不同的时长进行训练,必然也会产生出和其他训练者相比具有“独创性”的个性化训练模型。
同时,创作过程中,“训练者”使用到多款软件的辅助:提取人声、切割原始数据的软件;同时具备训练模型和推理模型的创作软件;音频视频制作软件。特别是训练出孙燕姿音色模型的创作软件,确实对最后的作品给予一定的贡献,但最后作品中凝结的独创性,来自于创作者筛选和投喂给软件的素材,软件在这一过程中仅仅起到“工具”的作用。
从著作权法角度来看,生成作品应当被认为是“改编作品”,而生成作品中的素材即为原作品。在厘清人工智能生成作品的过程和独创性的基础上,下文将继续探讨,“AI孙燕姿”类的人工智能产品到底包含哪些知识产权,以及归属于哪些权利人。
三、“AI孙燕姿”生成作品中的知识产权和归属
对于满足了“独创性”的作品,应当如何区分权利性质和权利人身份,仍然需要回顾创作路径,识别创作路径中的素材才能进行分析:
-素材收集:“孙燕姿”演唱的作品中的干声;
-数据训练模型:经过训练后的“AI孙燕姿”的干声;
-模型推理:其他歌手演唱的作品,并切割成干声和伴奏两个音轨,以“AI孙燕姿”的干声替换其他歌手的干声;
-生成作品:合并了“AI孙燕姿”的干声和其他歌曲的伴奏两个音轨。
因此,需要分析生成作品中的两个音轨中分别包含哪些知识产权可保护的对象,即可成为权利定性和权利人归属认定的关键。
1、著作权
其他歌手演唱的作品中的歌词(文字作品,原曲的词作者是权利人)、旋律(音乐作品,原曲的曲作者是权利人)都是著作权法意义上的作品。
2、邻接权(表演者权)——原歌手(被替换的原歌手的干声音轨)的演唱”
很多听众会认为,即然被替换成训练后的干声,那就根本就找不到原唱的表演,何来表演者权?这里需要引入一个关于“音色”在音乐学和物理学上的常识。音色是由基音及其波段(泛音)构成的,每位歌手音色的特征,都像标签一样有识别度,可以与歌手本人直接对应起来。比如想到孙燕姿的音色,大多数的听众都会有一种相似的感受,正是基于孙燕姿发声时的基音和泛音的特别组成方式,才使得她的音色明显区分于其他歌手。但除了本身的发声方式带来的声音效果之外,要完成音乐表演,演唱者仍然需要对乐句进行细化处理:呼吸的气口、断句的方式、每个乐句强弱的音乐走向、颤音的长度和幅度,每首歌的细化处理方式是每个歌手独有的。也需要歌手根据个人对歌曲的理解,结合音乐和歌词的意义,进行个性化理解和处理。而在前文中提到的替换,只是单纯的“音色”替换,演唱方式仍然保留了原唱者在演唱时的细化处理。比如,早期的歌手惯用的演唱方式是大幅度的颤音,并且早期的歌曲也较多长线条(长音)的旋律,一旦替换成“AI孙燕姿”的干声,听觉效果上,虽然有接近孙燕姿的音色(基音+泛音),但却仍然保留了早期歌手那种标志性的大幅度颤音。而原唱歌手的乐句处理方式也一并被保留下来。读者也可以作如下验证:自己演唱一首歌曲以后,将训练后的孙燕姿音色模型替换成自己演唱的音轨,最后的人声中必然会同时感受到自己的演唱方式和孙燕姿音色。
由此可见,原歌手的表演(细化处理等演唱方式)仍然在人工智能生成作品中可以找到。“AI孙燕姿”并不是孙燕姿在唱,而是人工智能让“AI孙燕姿”和原歌手一起唱,因此原歌手仍然享有表演者权。
特别注意:原歌手的演唱能被直接识别出因而享有表演者权,但孙燕姿本人有没有表演者权?答案是否定的。“AI孙燕姿”的干声是通过对孙燕姿原声的干声进行训练而得到,根据前文的“训练模型”过程也可以看出,由算法主导进行声音训练时,存在一个训练结果参数“loss”值,数值越小越接近原声,但正常情况下,是不可能训练出“0”数值的模型。因此,“AI孙燕姿”的干声在技术上和法律上都不可能等同于孙燕姿的干声,并不是孙燕姿本人在演唱,孙燕姿本人在生成作品中并不具有表演者身份。
3、反不正当竞争法下的混淆行为
(1)擅自使用有一定影响的姓名(《反不正当竞争法》第六条第(二)项)
大量视频、音频网站上的“AI孙燕姿”作品的高流量,建立在原作者和原演唱者、孙燕姿本人的高知名度的基础上。由“AI孙燕姿”演唱周杰伦的歌曲,更多给听众带来“双厨狂喜”的欣赏体验。歌曲演唱者和标题中“孙燕姿”三个字的知名度已经足够让听众点开音频、下载音频,直接创造流量和经济利益。同时,知名度毫不逊色的“周杰伦”,或者“方文山”也会让听众愿意为这种“新”的作品而买单。“AI孙燕姿”作品在流通过程中同时负载着这些有相当影响力的人名,引人误解和混淆。
(2)孙燕姿的音色:其他足以引人误认为是他人商品或者与他人存在特定联系的混淆行为(《反不正当竞争法》第六条第(四)项、《民法典》第一千零一十七条)
孙燕姿本人的音色,极具辨识度。如果经过训练后的音色模型可以非常接近本人的声音,替换后的“翻唱作品”可以与其孙燕姿本人的演唱紧密连接起来,听众已经可以把“AI孙燕姿”的作品当作孙燕姿“翻唱”其他作品的平替,低“loss”值的训练模型的听觉效果几乎可以以假乱真,引起混淆的后果。
4、人格权
上文《反不正当竞争法》下的混淆行为,是因为被混淆的对象本身具有知名度而应当受到保护。如果失去“知名”这一前提的条件,光训练出的音色本身能否成为《民法典》中的保护对象?即:孙燕姿本人能否主张出现在“AI孙燕姿”中的音色模型侵犯自己的“声音”权利。由于在“模型训练”中,几乎不可能存在“loss”为0的训练模型使用在作品中,所以训练出的音色并不代表本人真实的音色,无法成为《民法典》下人格权的保护对象。但是,未经本人许可,使用其原声进行音色模型训练的行为确实有侵犯人格权之嫌,这个问题需要以数据合规的路径加以规制,不属于知识产权合规范畴,本文不作展开。
结语
生成式人工智能产品的特点是,同时包含“人”的贡献、由人研发出的“人工智能”的贡献。因此结合了“人”和“人工智能”的产品并不是“无人”产品,而包含了多作者多作品的“多人”产品。多人作品,往往带来多种权利的重叠,那么“在后”的作品必定要让位于“在先”作品。本文从技术角度解释人工智能作品在生成过程中包含的多种权利,但本文只解决了权利性质和归属的问题,即:“原告”立场的思考,包括:权利人是谁?依什么权利基础提起诉讼?本文并没有对“被告”的抗辩立场展开,相关问题留给读者继续思考。也欢迎大家与笔者多多交流。
[1] AI干货老铁,AI孙燕姿怎么做-制作教程,https://www.bilibili.com/video/BV1hs4y137dQ/?spm_id_from=333.1007.top_right_bar_window_default_collection.content.click&vd_source=f448f76288dce334fa0284a769fbab54
欢迎免费使用GPT对话,感受ChatGPT的魅力!AI爱好者 – 最具实力的中文AI交流社区平台 (aiahz.com)
ChatGPT国内版本,无需梯子,也能体验Chatgpt-AI爱好者 (aiahz.com)
长按扫描二维码进群领资源
