
今天看到个比较有意思的项目。
官网地址: play.ht
它可以从 20 秒的音频中快速生成克隆语音,并自动转换为英语。
也就是说,即便你不会说英语,也可以通过语音克隆的方式,立刻说出一口流利的英语。
这里的技术采用了一个名为 Parrot 的模型,它能从几秒的音频克隆出声音,并基于文本,重新生成一段富有情感的语音。
不过该模型暂时只支持英语,技术团队已经在开始尝试支持更多语言。
克隆声音的数据样本主要分两种:高保真(20 分钟)和零样本(20 秒),给的音频样本时间越长,其精度就更佳。
未来,该工具将被应用到各类数字内容创作(如游戏、媒体、在线教育)等平台。
如果你感兴趣的话,也可以用自己的声音试下