AI产品经理之数据标注
前两篇笔者分别为大家介绍了AI产品经理需要了解的概率论通识、线性代数通识、微积分通识,本篇文章中,笔者将继续为你介绍AI产品经理需要了解的数据标注,供大家一参考学习。
前几天参加京东的AI技术沙龙,在提问环节,有个小伙说:
“我是做销售的,刚才您讲的我都没听懂,我就知道,现在AI是风口,只要做AI相关的就能挣钱,您能说几个现在我们这类人能做到吗?能挣钱就行!”
台上技术出身的老师自然一时语塞。小伙说的没错,百团大战的时候确实一批刷单公司赚得盆满钵满。但是这些投机取巧注定不能长远。
让更多人卷进这次AI浪潮的可能就是数据标注了,All in AI的百度拥有大量的标注业务,大部分河南标注工厂用的是百度的标注工具,干的是百度的活。开始的时候标注的利润空间可以达到60%—70%。有些企业盲目扩张,一下子招了几百人;但是陆奇离开后,百度需求减少。准确率又普遍提高至95%-96%,活难干了。这些工厂只会百度的标注工具,很难接别家的业务,因此死了一批。
现在来看标注行业是一个苦行业,“如果你和谁有仇,就劝他干标注吧。”这是标注圈有名的段子。干标注就像将水倒进一个水桶里,每拉一个框就是添一碗水。目前,谁也不知道还能添多久,只有水溢出来时,才知道。
数据是AI公司的必需品。数据对于AI模型的重要性尤为重要,AI建模没有门槛,数据才是门槛。现阶段的人工智能是简单的认知智能。分类器的构造是个数学问题,就是由数据堆起来的。或者说深度学习本质上是个数学问题,是由大量的样本空间数据反向构造分类器的系数空间的过程。
数据标注模型
数据标注业务的配置是一个复杂的数学模型。比如,有些任务需要串并联的工作流,并联的工作流是多人协同的工作。串联的工作流是后一个结果是基于前一个结果进行处理的,串并联的工作流需要平台来实现业务工作流的配置。比如一些NLP型的文本标注作业,需要多个人来标,最后N选一或者投票。串并联配置涉及到底层数据流的分发等。或者说更像是一个流水线作业流程。
不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。
数据的质量直接会影响到模型的质量,因此数据标注流程设计和监督纠错就显得异常重要。
一般来说,数据标注部分可以有三个角色:
- 数据标注员:标注员负责标记数据。(文本、图像、视频)
- 数据审核员:审核员负责审核被标记数据的质量。(抽检)
- 标注管理员:管理人员、发放任务、跟进流程。
只有在数据被审核员审核通过后,这批数据才能入库使用。
一般众包数据标记流程
- 任务分配:一般数据分配由后台自动分发,根据用户选择标注类型每次分发几条内容,标注完成后再次分发。
- 复核入库:一般一条任务会分配给大于三个人的基数人员完成,根据少数服从多数原则确定该条数据的最终标签。
- 质量验收:一般会根据用户标注总数量和入库数量计算该用户的标注质量,和计算有效标注数量,质量高的和质量低的薪酬计算方法会有差别,以此来淘汰不能完成高质量标注的人员。
数据标注类型
图像标注-线标注
根据需求标注检测对象相对应的线型位置,例如:车道线。
图像标注-边框标注
标注检测对象相对应的区域,例如:汽车/行人等各种物体。
图像标注-3D边框标注
将图像中待检测物体以立体形式标注,例如汽车检测。
图像标注-语义分隔
根据检测区域不同,将图像标注为不同的像素,例如来自汽车拍摄的图像。
图像标注-多边形标注
根据需求标注检测对象的形状,例如:标注图像中的汽车轮廓(示例图)或标记污损边界。
图像标注-点标注
根据需求标注检测对象参考点的像素坐标,或者图像中的关键点标记,如人脸。
图像标注-3D点云标注
在3D空间中,标注点云数据中指定的检测对象,如汽车、行车道等。
视频标注-跟踪标注
在视频或者连续的图像中跟踪标注检测对象,形成有ID关联的运动轨迹。
文本标注-中英文语音转写与校对
英文语音转中文文本,或中文文本转英文语音。
文本标注
实体命名,标注文本中的实体。
语音标注-客服语音标注
外呼机器人进行外呼记录语音标注呼叫成功或者失败,从而训练话术。
标注流程
- 需求确认:对标注任务需求确认,标注数据集准备完成,规范标注需求,指定标注模型。
- 人员筛选:确定标注人员及人员角色
- 人员培训:针对不同角色培训标注规范和标注标准
- 开始试标:先标注少量数据,试用标注数据,调整标注流程,使得效率最优。
- 正式标注:完成整体标注任务。导出数据。
总结
快速、高效的进行数据标注,是机器学习和深度学习的基础,现在一些标注工具通过深度学习模型和主动学习技术,通过NLP模型来提高标注效率,集数据标注、数据管理、模型训练和模型服务于一体,使数据标注更加轻松、更高效。离AI最近的重复复杂的工作,是首先会被机器取代的。
#相关阅读
作者:老张,宜信集团保险事业部智能保险产品负责人,运营军师联盟创始人之一,《运营实战手册》作者之一。
本文由 @老张 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: