手机也能视频抠图,“绿幕侠”如何让人原地“环游世界”?
图片来源@Unsplash
在极富动感的音乐中,一名少年踏着滑板穿过了崇山峻岭和西部公路,就在你以为这是某个电影片段时,画面一转,屏幕外的少年只是在原地摆姿势。
以往这种效果,往往通过专业团队搭建绿幕完成,而现在一家公司想用AI技术"取代"绿幕,让人在手机拍摄时,就能实时完成视频抠图。
这便是Versa(上海懿天网络科技)公司推出的新产品"绿幕侠",该产品希望能够一部分"替代"绿幕,让普通人也参与到微电影短视频的制作当中。
如下图所示,用户进入"绿幕侠"后默认是绿幕,用户还可选择其他视频场景如"梵高的博物馆"、"徒步欧洲"和"像素人"等主题。视频中的人像会被App自动抠图出来,可改变大小或复制拼贴。据钛媒体观察,当前产品中内置的许多视频场景由用户上传。
用户可在"绿幕侠"主页可选择不同场景拍摄视频
Versa希望能做成手机端的Adobe,只是前者的受众偏向设计师等专业群体,而Versa公司希望能降低创意设计的门槛。与Adobe全家桶类似的是,未来versa也打算推出一系列产品,专门解决普通人在图片、摄影、视频和音乐方面的创意设计问题。另外,除了移动端,这些产品也将逐步在Pad和PC端上落地。
2018年8月,Versa推出了AI图像处理App"马卡龙玩图",该产品的定位是"手机端Photoshop",其最重要的功能之一,就是利用计算机视觉中的AI图像语义分割技术进行一键抠图,实现人景分离和图像分离。用户不仅能一键P掉游客照中的路人,还能穿梭于世界名画、日漫风景等各种场景中。
蔡天懿对钛媒体透露,之后"马卡龙玩图"也会上线视频抠图功能,不过与"绿幕侠"不同的是,前者注重视频的编辑功能,会对已有视频做特效编辑;而后者重视拍摄过程,可实时抠图完成特效。
用户在产品的内容社区上传自己的作品(图片来源于马卡龙玩图)
AI图像语义分割是Versa公司系列产品中最核心的技术。从"马卡龙玩图"到"绿幕侠",Versa产品的处理对象完成了从图像到视频的跨越,两者都基于AI图像语义分割,只是后者面临的技术挑战更大。
那么,实时的视频抠图要如何实现,实现了部分特效制作的"绿幕侠"又有着怎样的想象力?
视频抠图的技术攻坚战
马卡龙玩图刚上线时仅能做到人景分离,现在已经能做到图像分离,分割几十余种常见实例,除了识别人,人体各部分(如五官、头发和衣服)还有人的附属物(如背的包袋)等等。
视频抠图也是如此,多张图片的连续便成了视频。帧数越多,人所看到的视频越细腻。电影的帧数是24帧/秒,而"绿幕侠"的频率已经能达到30帧/秒,相当于1秒处理30张图片,一张图片约为33毫秒。
"绿幕侠"视频抠图示意图(来源产品宣传片)
在从图像抠图到视频抠图的转变中,Versa团队曾面临一个问题:做实时视频抠图,AI模型的运算选择云端还是手机端?
"我们决定把运算放在手机端而非云端。 这主要出于实时处理、节省费用和个人隐私三方面的考量, " 蔡天懿对钛媒体表示。
他补充道,首先,在云端处理往往有100毫秒的时延,而"绿幕侠"是实时抠图替换背景,有时延便无法做到实时。其次,视频处理跑在云端需要额外负担比图片处理高30倍的云端服务器的成本,且用户数越多成本越高。第三,拍照视频都属于个人私隐,上云也会存在安全隐患。实现手机端运行是绿幕侠App落地的首要条件。
像前段时间流行的FaceApp能让人一键变老,该产品就是要先上传到云端再做计算,不仅会受到网络状况的影响,还被质疑上云会侵犯用户的隐私。
但是把视频抠图放在手机端运行,技术门槛并不低。这既 需要将云端的大算法模型缩小到手机端同时又保证处理效果,又需要能够提供足够算力的手机芯片。
在算法模型的升级上, Versa 的 AI 实验室于今年 3 月份完成了模型小型化,实现了把模型从云端放到手机端的前提。
蔡天懿对钛媒体举例道:"如果用一台8000块钱电脑的GPU做人景分离,一张图需要100毫秒,一秒仅能做10张图;但Versa的算法模型一秒可处理30张图,还要保证一定的精度。优化后AI模型增强了其处理能力。"
在模型优化后,蔡天懿发现许多芯片依然带不动他们的AI模型,他们需要一个算力足够大的芯片。当前,"绿幕侠"产品在搭载麒麟810芯片的华为荣耀9X新机型上首发,麒麟810芯片内置了华为自研的达芬奇架构NPU,能为AI模型提供足够的算力支持。
"事情的本质是,我们有很好的AI模型,你敢有很好的芯片吗?华为有了",蔡天懿打趣道。
不过,不同芯片对于AI语义分割的效果也是十分明显的。据蔡天懿表示,如果在其他芯片算力不够的手机上运行,效果出现帧数减半、卡顿或者精度不足也是无可避免的。这也是该产品在华为荣耀9X机型首发的原因。
"绿幕侠"不止于工具
新技术会带来新的工具,新的工具又带来新的玩法。
"除了18-25岁的年轻用户,现在很多跳广场舞的阿姨也在用我们的产品,她们会把自己跳舞的照片P到荷叶中间去,我们很高兴能为普通人实现创作梦想,"蔡天懿对钛媒体表示。
如何从工具转型为社区,是图像和视频处理工具普遍面临的挑战。即便美图秀秀这种头部的美颜修图工具在转型内容社区时也会受挫。业内人士曾对钛媒体分析,转型失败的原因在于该类工具的社区充斥大量自拍照片,内容同质化所以缺乏吸引力。
蔡天懿也认为,"用户的创意内容才能使社区内容更多元。"为此,Versa官方也会推出话题鼓励用户作图并发布在社区中。
除了在C端获客, Versa也正在考虑和短视频直播方和影视制作方合作。 据蔡天懿预计,夹层广告将为短视频直播类产品带来广告收益。实时视频抠图也将降低传统绿幕特效和动作捕捉的成本,并且减少后期制作周期。在不断优化下,未来或可达到影视制作工业级效果。
Versa还 上线了 OpenAPI 平台,为开发者们与企业用户提供多种图片 API 接口如风格渲染、人像分割、智能填充等,并为企业提供定制化的服务。
当前,Versa已经完成来自包括红杉资本、真格基金和臻云创投在内的三轮融资。去年12月,Versa获得了来自腾讯的数千万美元A轮融资。Versa还与上海交大联合成立了"脑科学与人工智能"实验室,去年一年发表了100多篇相关领域论文。
蔡天懿对钛媒体表示,接下来Versa有三个深化方向:首先是做的更精细,让边缘清晰到连头发丝也能抠图出来;第二是要更快,希望每秒处理的帧数可以提高;第三是更多,希望不只能把人抠出来,还可以抠更细的物体,比如鞋子、衣服等等。
"你知道钢铁侠的眼镜'伊迪斯'吗,只要戴上就能把每个物体扫描出来。我希望能达到这种图像分割的效果,处理的更快也更多。"蔡天懿说。
(本文首发钛媒体,作者/芦依,编辑/蔡鹏程)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: