融资合伙人入围项目 | 研发新型合成技术,「随身听」瞄准有声读物的语音合成
近年来,语音合成技术正越来越多地应用在地图导航、新闻资讯、音频读物等领域。
36氪曾报道过的“随身听”就是其中一家以语音合成技术为核心的创业公司。该公司曾于2018年6月宣布获得远望资本的数百万元人民币天使轮融资,最初对自己的定位是“语音新闻聚合推荐平台”。但该公司创始人兼CEO汤巍敏告诉36氪,为了规避新闻资讯审核的政策风险、快速积累内容, 随身听目前的主要业务为: 短期内,给第三方做有声书的合成,长期来看,要运营合成有声书的版权。
谈及为何入局有声书语音合成领域,汤巍敏表示,目前,喜马拉雅FM、蜻蜓FM等有声读物平台的头部内容录制质量较高,但长尾内容的录制质量远不如语音合成的效果,其音色也不如语音合成多元。而他们做的语音合成产品分为两种,第一是摘要合成,第二是全文合成,用户可以先听摘要,如果感兴趣,再听全文。
汤巍敏称,在语音合成领域,有多种技术路线,包括传统的拼接技术、参数合成技术,但此二者都遇到了瓶颈。 而随身听采用的波形合成技术可以提升时间效率、减除对GPU的依赖、减少60%以上的经济成本。
目前, 随身听以B端服务为主,后期会面向C端客户提供合成有声读物。 其B端客户包括中国图书进出口集团(有声读物)、人民日报社(新闻技术服务)。
该公司创始团队曾获得百度hackathon大赛黑马奖,其核心技术骨干来自硅谷音视频技术公司OpenTv。
以下是36氪在2018年6月对随身听的报道原文:
36氪获悉,语音新闻聚合推荐平台“随身听”已完成数百万元人民币天使轮融资,由远望资本投资。本轮融资将主要用于团队扩充和内容丰富。团队希望在短期内优化机器生产的内容质量,丰富内容品类。长期目标是做内容分发平台,接入更多第三方内容。
“随身听”是一个语音新闻聚合推荐平台,团队以自研的舆论预测算法和文章摘要抽取算法,为人工智能语音交互平台客户及个人用户提供语音资讯服务。
“随身听”更像是一个利用机器提升内容生产效率的内容生产者。“随身听”的内容并非来自于网络抓取,而是通过算法自动生成。这使得公司在未来不会面临版权问题。
要做到这一点,主要利用了网络爬虫技术、数据清洗、知识图谱、自然语言处理等相关技术。具体来说,通过网络爬虫模块,每天大概爬取到2-3万条全国各地的新闻资讯及相关平台、作者、评论信息,并对这些内容进行关键信息提取构建信息图谱,去重,过滤敏感信息和谣言,并进行排序;分析文本中的句子的重要性,进行抽取,确定时间、地点、人物、事件等基本信息,生成摘要;并通过语音合成生成语音内容。
一般来说,只有头部内容才能获得更多的关注。这方面,团队通过技术实现新闻热度预测。团队通过抓取阅读、评论、转发等用户行为数据及其变化趋势,和平台本身发布、置顶、推送、下线等行为动作,通过机器学习建模,实现对新闻热度的预测。目前,针对头部内容团队会进行人工录制。
在国内,内容的审核必不可少。目前团队主要通过人工来完成。一方面,新闻编辑员对自动抽取内容的评估和修改,同时修改内容反馈抽取模型和热度预测模型,训练模型参数。另一方面,新闻审核员会负责审核新闻的内容质量和政治脱敏,屏蔽风险。
目前,“随身听”的产品主要以语音内容的形式对外提供。这意味着团队在技术上还需要解决语音合成技术,从而降低内容生产成本。团队表示,目前团队已经积累了很多新闻主播的新闻播音数据,并标注后做新闻播报领域的专业TTS库,比现在开放的通用TTS效果好。现阶段,“随身听”的头部新闻也采用人工录制,长尾新闻采用TTS合成。
现阶段,“随身听”同时像C端、 B端提供内容资讯服务。C端方面,目前主要通过小程序、App呈现,团队表示上线一个月自然用户在5千左右。B端方面 ,以接口的形式向合作伙伴输出内容,目前已经与腾讯、小米、京东、地平线等建立合作关系,按照年费或者接口请求收费,目前公司已经实现了盈利。
此外,为了提高用户粘性,团队还通过机器学习等技术,为用户建立用户画像,首次登录给用户选择感兴趣的内容标签,系统会记录用户的对新闻类型的收听行为,详情TTS的收听情况,以及跳过或重听的行为,建立用户画像,从而筛选用户喜好的标签,筛选出用户最有可能喜爱的新闻内容。
当前,音频内容的接受程度越来越高。一方面,生活中确实存在诸如驾车、骑车、步行、家务、用餐、洗簌等不方便观看的场景;另一方面,也存在下班疲惫、年老眼衰等不愿意看或者不能看的场景,给音频内容提供了机会。而随着智能音响、无线耳机等音频终端普及,智能语音相关的巨头及初创公司之间形成竞争,音频内容的重要性也在提升。
新闻资讯类应用及服务往往门槛相对较低,且前期需要借助渠道推广,很可能面临后来者竞争。团队认为,新闻是数据驱动型项目,目前即使是渠道型的大公司,在新闻的数据化和实效性方面积累并不够强。
“随身听”的团队有10人左右的全职团队,创始团队是百度大数据的技术和腾讯产品经理的组合。创始人汤巍敏,2014年初加入百度,在百度云设备部和百度大数据部任职,有近30个中国和美国专利,在百度期间,参加百度hackathon比赛,并获得了第一名。联合创始人宋治云是前百度智能语音产品经理、腾讯AI高级产品经理。核心成员在新闻预测、个性化推荐、语音交互等方面经验丰富。
远望资本创始合伙人程浩告诉36氪,“语音交互是一个趋势,而个性化的音频新闻是建立在语音交互基础上的杀手应用,既刚需又高频,可以应用在音箱、车载以及手机上;特别是手机端还有微信小程序的红利。其次,从团队配置上看,这是一个百度大数据的技术派和腾讯AI产品经理的优秀组合。”
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: