云测数据:离落地越近,AI 对数据就越挑剔
「你们的客户有哪些?」
「这个不能细说,很多签了保密协议。不过……」Testin 云测 CMO 张鹏飞停顿了下,手指下意识地敲了敲桌面:「我们的客户覆盖智能驾驶、智慧城市、新零售、金融等领域。」他继续补充道:「还有越来越多的智能化转型的传统行业客户,选择采用我们的数据标注服务」。
创建于 2011 年的 Testin 云测在移动互联网时代从应用测试业务出发,顺势而起并成为企业服务明星企业。经过行业前瞻判断,积极布局定制化数据标注业务领域,成立了云测数据品牌。在数据标注领域,云测数据已然是国内的第一梯队。
人工智能正迅速向应用人工智能发展,拥抱产业的人工智能对数据标注的门槛在不断提高。「比如在自动驾驶领域,现在主流的是多传感器融合方案,从摄像头增加到激光雷达,从二维图像数据发展到三维图像数据,多模态的数据帮助算法模型更好的训练,只是由于激光雷达的价格比较高,所以很少会有人去使用和标注。」但未来硬件成本的下降是必然的,而在 Waymo、Uber 等较早做自动驾驶的企业中,也已经可以看到三维图像增加的趋势。
AI 训练的「蛋白粉」
数据采集和标注都不是新鲜的事情,伴随着 AI 兴起,约在 2011 年相应的商业生态也随之而生,2015 年行业进入快速增长期,但许多问题也同时爆发——「鱼龙混杂」,可以这样形容早期采集和标注的数据。
比如人脸识别,在 2015 年左右,许多的数据采集和数据标注的小作坊开始大规模出现,主要以通用数据集和小规模采集为主,到了 2016 年,开源或是付费的数据集开始兴起,与此同时数据标注的众包业务也在野蛮生长,据估计我国有数千个相关的企业或团体,而从事数据标注众包的专职、兼职人员超过百万。
将识别准确率从无提升到 95% 的过程中,这样的数据是足够用的,但实际落地中,将准确率从 95% 提升到 99%,就显得捉襟见肘了。「我们行业里有一句话,『Garbage in , garbage out』,这是机器学习和神经网络的本质决定的。」云测数据总经理贾宇航说。
在 iPhone 推出人脸认证之后,许多安卓手机也跟进这一功能,但人们却发现,有的手机无法识别照片和真实的人脸,打印出来的也能蒙混过关。而更进一步的识别,需要机器对人脸的三维结构有一定的理解,如果还要跟仿真的面具做区别,那么还需要加上活体检测的能力,甚至精细到对面部血管和极轻微抖动的识别,来判断识别对象是否有心跳等,这显然是简单的数据获取和标注所难以满足的。
「2015 年时,数据的标注需求很简单,可能客户就说,我这有批图片,人脸拉框,尽量贴合,这个需求文档就已经描述完了,而今年,我们发现同样是做人脸标记的企业需求,一张 A4 纸都没办法把所有的要求写完。」对于这样复杂的标记任务,云测数据在做之前首先要小范围实验,然后需要开会由专人讲解,并在标注过程中随时做抽查,看标注员的理解是否正确:「精度会有多高呢?一张人脸需要你准确地在内眼角上标注人脸关键点,在图片上,内眼角也就不到 100 像素,而任务还会精确到标注到具体哪个像素上。」
工作人员正在讲解人像标注 | 图片来源:云测数据
而数据标注仅仅是复杂度上升的后半部分,AI 企业高精度数据的需求同样体现在数据定制化的采集上。过去几年机器学习领域以「海量数据暴力计算」的方式迅速发展,而现在这一模式也逐渐遇到了瓶颈,安防是国内 AI 落地最多的行业之一,以安防摄像头获取的数据为例,5 万小时的录像中,有足够拿来训练 AI 识别行人和车辆的内容,但最需要安防摄像头识别的是什么呢?是打架斗殴、行人跌倒等异常事件,可能在 5 万小时的录像中,这些是以分钟为数量级的。显然,这不足以训练出可以实际应用的 AI,对于这样的小数据,需要定制化的采集策略。
具体到 AI 数据服务中,以 AI 企业数据增强需求为例。在云测数据的数据场景实验室中,绿色的幕布前,一位群众演员站在中央摆出不同的表情,正对着摄像机拍摄,演员的周围布满了光源,让其面部没有任何死角。对 AI 企业来说,拍摄这样的一张「纯净数据「,可以拓展更多的数据价值。当然,搭建这样的采集环境,对 AI 数据服务商有着光线,被采样本等条件的严格要求。
表情采集讲解中 | 图片来源:云测数据
「我们在前两年做人脸的采集时,对背景、光线还没有什么要求。」贾宇航说,在过去两年,AI 企业对数据的采集和标注都变得更具有策略性:「比如说自动驾驶,以前恨不得天天都在采集,把数据都标上,现在就要是在雨天、雪天去采集,要去人流密集、或者是很多卡车、三轮车的特定场景,非常细化。」
而这也是 AI 真实落地的必由之路,以往粗放式采集、大批量标记的模式逐渐被定制化采集、高精度标记模式取代,要到趋近 AI 产品落地前的水平,高质精准数据对 AI 企业来说,就像蛋白粉对于职业运动员一样必不可少。
行业洗牌在即
数据标注行业发展早期,由于门槛较低,让这个行业鱼龙混杂,同质化竞争严重,甚至出现了以往传统行业常见的多道贩子。,而供过于求的市场和过去数年 AI 企业对数据质量的相对不重视,以及数据标注员被称为 AI 从业人员的底层,让这个行业进一步陷入了低价低质的怪圈。
大量劳动密集型的数据标注工厂在 AI 产业爆发初期,为中国人工智能企业的崛起做出了巨大的贡献。随着人工智能产业的发展与进化,数据标注行业开始朝着专业化、精细化、定制化方向发展。AI 企业在逐步落地过程中发现,所需要的数据维度和复杂度正变得越来越高,数据服务的众包模式以及通用数据集已经难以满足 AI 企业的数据需求。「精准优质」、「安全独立」的数据被认为是 AI 企业落地前的刚需。
2018 年初,甲子光年曾报道称,BAT 和 AI 企业占到了数据标注任务来源的约 7 成,但随着 AI 落地到传统行业,这个比例正发生变化。「比如银行、保险、汽车这些行业,在引入人工智能时有很大的势能。」贾宇航用车内的疲劳检测来举例,虽然市面上有不少开源或付费的数据集,企业也可以比较容易地获取算法然后进行训练,但作为整车厂,关心的并不是模拟器上的准确度,而是具体在自己某一型号的汽车上,在后视镜或是中控台上摆放的摄像头的具体效果,如果数据不是真实地在这个环境下采集,很难实际论证。
「这也是深度神经网络的一个特点,比如人脸数据是在室内采集的,放到室外用可能就不行了,要产品化的话必须要结合使用场景去采集数据,才能提升识别精度。」在 2018 年的年初,市场上任务需求一般是量大质低,钱比较容易赚,而市场需求的转变,让数据服务的难度不断提升,再加上百度众包、京东众智等数据标注电商平台出现,行业标准化和透明化成成都提高,进一步加剧了行业的洗牌。
一开始就定位定制化采集和高精度标准的云测数据,采取的是自建基地模式,全职雇佣数据服务人员。从商业模式上来看,比起欧美逐渐成熟的如 Scale AI 的众包模式,云测数据想的会更远一些,自建基地模式要更稳定高效,另一方面,也能更规范性地保护数据隐私。
Testin 云测 CMO 张鹏飞补充道「从整体看来,AI 数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能『良币驱除劣币』,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程」。
「安全」和「独立」显然密不可分。据了解,云测数据坚持独立第三方的立场,与所有数据采集的用户都签订数据授权协议(包括支持欧盟 GDPR 协议),对客户定制的数据交付后不留底全部删除,并建立了从防火墙到内部信息系统管护、各终端不联网、USB 接口封死等数据保障机制来保证数据安全。
为了尽量提升效率和保证数据质量和数据安全,云测数据在华北、华东、华南建立数据标注基地。一般 AI 产品在发布前一个月就需要拿到标注好的数据进行训练,而数据训练前一个月就应该完成数据的采集,对追求速度的 AI 企业来说是分秒必争的。「我们现在千人规模的全职的数据人员,但还是远远不够。」
不久前 IDC 联合量子位发布的《AI 落地白皮书》中称,中国在全球人工智能市场占比 12%,位居第二,但增速 64% 位居全球第一,云测数据在数据采集和标准的市场还有庞大的增长空间,贾宇航认为,未来他们会更加深入 AI 细分领域和场景,并会考虑在未来进一步开拓国际市场。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: