想让奥巴马说什么都可以!最新 AI“对嘴”技术可伪造几可乱真的影片内容

作者 | 发布日期 2017 年 07 月 18 日 7:40 | 分类 人工智能 , 软件、系统
Obama-624x350

眼睛看到的不一定可靠!过去,我们用 Photoshop 修出各种“照骗”,但最新 AI 技术,连影片中谈话者的嘴形和声音都可以修改,甚至逼真到难以从影片中察觉异状。该研究可将声音档转换为说话嘴形,并套用在其他影片中,改变影片主角原本的说话内容;也就是,虽然影片片段是真的,但说话的内容是假的。




仅分析 17 小时奥巴马演讲影片,所需资料量较过去小

华盛顿大学研究团队发布一篇名为“同步奥巴马:学习如何用声音同步嘴形”的研究,而研究成果就是一系列美国前总统奥巴马的“造假”影片。

该研究透过深度学习演算法,让软件从奥巴马过去的演讲影片中,学习如何将声音档转换为嘴形变化,因此,当替影片配上新配音时,这套软件可将新配音转换为嘴形变化,再将嘴形移植到既有影片中。

▲ 该研究透过神经网络技术,从奥巴马过去的演讲影片中学习如何将声音档转换为嘴形变化,再将嘴形移植到既有影片中。(Source:UW News)

虽然影片中的音档确实来自奥巴马过去说过的话,但说话场景却完全不同。就像示范影片中,左边是音档来源,右边是另一场完全不同的演讲,但研究者透过算法,将两者结合成全新的影片。

研究者表示,之所以选择奥巴马为实验对象,原因在于网络上可轻易取得大量奥巴马公开谈话的高画质影音档,适合用来训练人工智能。

和过去研究不同的是,该软件不需要扫描大量的演讲影音资料,也不需要分析不同人说出相同句子的嘴形,才能学会转换声音;其仅需要既有的影音素材即可,所需成本和规模更小。

研究者指出,该研究仅分析 17 小时的奥巴马演讲影片就达到此成果,希望未来可以将分析所需影片长度压缩到 1 小时。

希望用于优化历史影音档案和视讯工具

研究者表示,希望这款软件可帮助优化历史纪录的影音档案,或是用于改善 Skype 这类的视频工具品质。例如,用户可以收集他们自己说话的影片,并用以训练软件,之后当他们使用视频工具时,影像便能自动符合说话内容,因此就算网络连线品质不佳,也能让视频画面保持顺畅。

不过,外界也担心,这套软件若遭恶意人士利用,后果不堪设想。例如,可先利用声音合成技术模仿出奥巴马的声音,再加上这套已经训练好、可将奥巴马声音转换为嘴形的模型,即可让奥巴马说出从未说过的话。

事实上,人工智能新创 Lyrebird 已经透过机器学习开发出声音模拟技术。该公司号称,只要 1 分钟的声音样本,即可模仿任何人说话。

(本文由 数码时代 授权转载;首图来源:影片截图)

如需获取更多资讯,请关注微信公众账号:Technews科技新报

数码时代

创刊于 1999 年 7 月,是中国台湾地区第一个以网络和科技为报导核心的媒体。长期聚焦全球、中国等地最新的科技、网络、绿能、数码行销、品牌等议题的动态及趋势。
未经许可,任何媒体、网站或个人不得复制、转载、或以其他方式使用本网站的内容,违者必究。
关键字: , , , ,

直接使用新浪微博发表评论

 

发表评论