三星新技术:让蒙娜丽莎开口「说话」
你有没有想过,有一天蒙娜丽莎不只会神秘微笑,还会对你挑眉眨眼、娓娓而谈?
不止蒙娜丽莎,玛丽莲梦露也「活」过来了,红唇一张就开始说话,眼角眉梢风情万种。
还有只在物理书里面看到过的爱因斯坦,你现在甚至能感受到科学道理正从他口中倾泻而出……
现在,你可能会以为这是什么特效视频里截取的画面,但事实上,这些人物的动态视频,都仅源于旁边那一张照片。
来自三星 AI 中心和莫斯科 Skolkovo 科学技术研究所的研究人员,成功地开发出了这个「人像照变动态表情包」的 AI 系统,并于 5 月 20 日在 ArXiv.org 网站上公布了他们的研究成果。
前阵子闹得沸沸扬扬的「色情换脸」,需要大量人物的图像信息再加原生视频,才能生产出一个新的合成视频,而这次三星 AI 只需基于一张肖像照片或一张画像,就能让里面人物的面部表情都动得栩栩如生。
虽然并非完美无瑕,但足以让人产生信以为真的错觉。
制作这个视频并不容易。
因为人类的视觉思维对脸部细节极其敏感,因此每个微小部分,包括嘴巴的弧度、头发的轮廓、眨眼的速度都很难忽视。所以这套人工智能系统经过了一段漫长的训练时光。
研究人员从 YouTube 收集了 7000 张名人照片,提取其「标志性」的面部特征,然后系统通过观看大量人类说话的面孔和表情丰富的视频进行学习。
▲「让照片动起来」的学习架构图
之后,人工智能系统就能将学到的内容应用到单张照片或多张照片上,高效地找到与系统学习的脸部相对应的部分,然后因人而异地针对新面部里各个的关键点,特别是眼睛、鼻子和嘴巴进行调整,最后达到最自然的动态效果。
当可以使用的照片越多,视频就会越加逼真,32 个图像,就足以让视频以假乱真。
虽然仔细看,人物边缘的地方依然有模糊的部分,不能识别的地方也只能用背景画面粗糙填充,玛丽莲梦露的视频还少了那颗标志性的痣。而且,视频也没有声音,动态只能呈现在面部,一张一合的嘴角就像一个练习生在唱 Rap,但它依然是一个颠覆式的创新,简单点说,实现了一键把 JPG 变 GIF。
研究人员表示,未来,这个 AI 系统将会被广泛应用在视频、游戏、电视、电影,以及特效行业中,估计现在,它就已经被 B 站上的鬼畜艺术家盯上了。而单张或少量照片就能完成动态人像的速度和效率,也让该模型更利于推广。
不过同时,这也意味着很快会有图谋不轨之人利用临时拼凑的工具来模仿它,进行群众误导或虚假诈骗,还有可能把一个人的人像照片制作出不可描述的动态表情,放在不可描述的身体上做不可描述的事情。
尽管它还不足以引起 Deepfakes「色情换脸」那样的风波,但它比起「色情换脸」使用起来更简易便捷,在人人都暴露无遗的互联网时代,担忧也并非没有必要,只是现在还为时尚早。
目前,该研究还处于简单测试阶段,复杂的神经网络模型要变得轻量化也有重担在后。不过就像哈利波特第一次去霍格沃茨魔法学校,看到那活了的石墙肖像而惊诧不已一样,现在,它在现实里也成真了。
接下来等待我们的,就是一个魔法世界。
欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: