房产类项目总结——成交房源识别
针对房产中介平台无法及时获取成交信息的现象,语音识别技术能够有效解决这个问题。不过你知道它又是如何应用的呢?原理又是如何吗?来看笔者分析吧。
近年来随着互联网、GPU/CPU硬件的发展,语音识别的准确率有了很高的提升,并开始在商业上进行应用。不管是国内百度的小度助手,还是Google Assistant、亚马逊Alexa,早已不再满足于“语音助手”的身份,在功能上开始向语音对话、内容服务、IoT设备管理等方向演进,几乎所有的互联网巨头都对语音势在必得。
人工智能慢慢步入了我们的生活,为我们带来便利的工具值得去挖掘。语音识别技术在房产市场是如何应用的呢?除了语音助手外,期望能通过语音识别功能帮助业务提升效率。本文复盘了语音识别关键词在房产中的应用,以此总结项目中的收获和不足,也期待对您有所帮助。
平台供给房源,但房源成交后,不能及时获取成交信息。所以需要从房主、经纪人、平台三方去考虑如何获取到成交信息:
- 从房主切入,可以在房主小程序/APP提供房主停售的入口,也可以通过短信或者模板消息触达到房主,提醒房主若有成交,及时反馈给平台。
- 从经纪人切入,可以提供反馈机制,通过成功反馈赠送积分的方式,激励经纪人主动反馈。
- 从平台切入,平台已通过阿里的虚拟号,获得经纪人和房主的通话录音,可通过语音转文字识别出疑似成交的房源。
语音转文字
为保护房主隐私,平台从阿里购得AXB中间号,阿里提供通话录音及转文字功能,识别的文字通过接口回调到平台,依赖于阿里转文字效率,所以文字识别会有时间延迟,在识别策略中,会考虑时间的因素。有了文字后,下一步要提取关键词,识别成交房源。
关键词识别分析
1. 目标:通过录音关键词识别出成交的房源。
2. 指标:召回率和准确率是对策略质量评估的方法,可以通过召回率、准确率、误判率等检验上线后的质量评估。召回率代表策略对问题的解决程度,而准确率、误判率代表策略有没有带来其他伤害。
召回率=识别总数/理想成交数 准确率=识别成交数/理想成交数 误判率=误判数/识别总数
3. 影响因素:
- ①录音转文字的准确度
- ②关键词的准确度
- ③经纪人拨打电话的频次
①和③受外部因素制约,本次版本暂时不考虑,重心放至关键词的准确度上。
4. 需要人工干预:由于以上三个制约因素,识别的结果不一定100%准确,平台需要安排专职人员对识别结果进行人工判断,防止误判。
提取关键词
拉取3000条录音转文字数据,用Excel初步分析,过滤不需要的重复词,例如语音词、象声词、问候词等,再用Wordart(https://wordart.com/)分析,找到关键词。
1.0版本
1. 关键字提取时间:通话录音转换文字成功后,每30min对未处理的内容识别一次。
2. 识别策略:若录音内容中,涉及如下关键字,则认为该录音命中“疑似成交”关键词。
- ①卖完
- ②已经卖了
- ③暂时不卖
- ④我不卖了
- ⑤卖了好久了
- ⑥早都卖了
3. 增加人为审核操作,并记录处理人和处理时间
4. 识别结果中展示识别文本和录音,可随时校验结果
策略质量评估
1. 召回率、准确率和误判率分析
对上线后一天的数据进行了分析,召回了25条数据,其中19条命中成交,6条误判,还有7条数据没有识别出。
对误判数据进行分析,“卖完”这个关键词出现在误判里的频次很高,针对该关键词,下一步需要优化识别策略。
对未识别数据进行分析,“卖了”这个关键词出现的频次很大,但这个关键词争议较大,会出现在经纪人的问话中,例如:“您卖了吗?”如果用它识别,误判率会很高。
2. 功能问题
①同一房源存在多条录音,每条录音都要处理,较繁琐。
②平台上房源下架有统一接口,所以审核和下架是两个分开的功能操作,审核房源后,遵循排序规则:待处理>已处理,数据自动下沉,寻找当前房源做下架处理较繁琐。
③处理状态没有显示在列表上,不能直观看见处理结果。
1.1版本
1. 规则优化
针对1.0上线,拉了1000条录音进行分析,发现显性关键词命中率很高,所以优先判断显性关键词,若无显性关键词,通过非显性关键词和时间维度去判断,一般房子卖了,经纪人的通话都会很短。
①判断文字中是否有以下关键词,若有,则认为疑似成交:
已经卖了、暂时不卖、我不卖了、卖了好久了、早都卖了、先不卖了、不想卖了
②若无上述关键词,则判断语音时长,若时长 <1min,且包含下列关键词,则认为疑似成交:
不卖了、卖了、卖完、没有了、撤了、下架、取消
2. 功能优化
(1)状态优化:列表显示状态“未处理、已成交、未成交”3种。
(2)若一个房源有多条未处理的数据,处理最近时间的一条,该房源所有之前未处理的数据状态变更为相应的状态,处理时间&处理人同理。
(3)列表刷新逻辑优化:完成“审核”后不刷新列表,仅变更状态、处理人、处理时间等相关数据。再次进入菜单,才刷新整个页面。
策略质量评估
召回率、准确率和误判率分析
对上线后一天的数据进行了分析,召回了26条数据,其中12条命中成交,14条误判,还有1条数据没有识别出。
通过上面的数据发现:增加非显性关键词+时间的识别,准确率增加,但是也召回了很多非成交数据,所以误判率也增高。虽然满足宁可错杀一千,也不能漏一个的原则,但还会拉更多的数据进行分析,优化时间维度的策略。
上述案例中,通过优化关键词策略,提高召回率,运用了策略质量评估方法,判断召回造成的影响,下一步要降低误判率。
在实际操作中,录音转文字的准确度影响也很大(见上图),我们也做了相关的数据统计,在未识别数据中,有30%的数据属于文字准确度不高导致的,这个无法避免,机器对噪音的抗噪性不够强,另外,语音识别并没有理解语义,若双方都用方言讲话,识别的准确率会更低。
语音识别,在这几年有了极大的发展,从算法到模型都有了质的变化,在加上语音领域(语音合成等)的其他研究,语音技术陆续进入工业、家庭机器人、通信、车载导航等各个领域中。本项目借助语音识别技术转文字,再通过文字关键词识别出成交房源,让语音识别在房产市场得到应用。
#专栏作家
柒柒,人人都是产品经理专栏作家,后台、移动端产品经理,《用户至上-用户研究方法与实践》译者
本文原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: