搜狗同传:用 3.0 技术撬动 AI 语音市场更大版图
「语言是人工智能皇冠上的一颗明珠」,王小川如此比喻。
从输入法到搜索引擎,表达信息和获取信息被搜狗汲取到了产品发展脉络中。向 AI 时代跨越的搜狗,产品需要以新技术和新形态来承载。
而在 AI 商业化落地的进程中,搜狗以自然交互和知识计算分别作为横轴和纵轴。横纵交汇处,便是搜狗在 AI 语音技术和产品的布局。在已成型的项目中,有一个产品显而易见,那就是「搜狗同传」。
在中国,从事同传工作的,大多数是英语专业背景,精通全领域是充分而非必要条件。而面对涉及医疗、数学和物理等领域的会议时,同传人员并不能很好地将这些相关术语准地翻译。
当学术盲点变成了行业痛点,以语音智能见长的科技公司便主动出击,抓住了同声传译这一细分市场的机遇。迭代到 3.0 版本的搜狗同传,已在逾千场大型会议上登场。
搜狗认为,机器同传的产品价值,主要体现在其致力于解决跨语言交流、跨语言信息获取和语言表达的电子化记录等障碍。若要真正实现这三点,不能单纯地把语音识别和机器翻译做嫁接,而需要一套完整的「有机系统」。
搜狗同传产品的迭代轨迹
从语音到机器视觉
作为业内首个商用机器同传的产品,搜狗同传的初始版本要追溯至 2016 年 11 月。
「在测试级的准确率波动比较大」,这是内部对搜狗同传 1.0 的客观描述。比如领域、口音、中英文混杂等因素,都是导致同传输出的内容出现极强不确定性的原因。「只有(演讲者)字正腔圆时,准确率才达到 95% 到 98%,其他时候可能只有 80%,」搜狗 AI 交互技术总监陈伟如是说。
三年后,同样的舞台,相近的时间,搜狗同传进化到了第三代。对比初代版本,「其识别能力越来越强,错误率越来越小,稳定性越来越好」,这是团队给出的全新评价。
早期同传产品之所以收效甚微,恰恰是没有很好地搭建其这套系统模型。陈伟指出,传统的同传产品掣肘于通用模型,在会议同传场景下,一旦涉及专业领域的内容,机器同传的效果和准确度就远不及人工同传。
搜狗同传 1.0 发布以来就陷入了瓶颈。每逢重大场合,陈伟和团队就忐忑不已。归根到底,是担心效果不好。为了加速商用化进程,团队连带推出了「个性化私人定制」的服务,就是投入人力,针对演讲内容做优化。
在推进的过程中团队发现,由于很难把所有演讲人的 PPT 和材料收全,导致所谓的「个性化定制」很难在会前完成。当产品上了试炼战场,疲于应付的「下下策」总不是长久之计。况且,一家科技公司不应受困于技术。
顺着个性化定制的思路,团队在琢磨:「如果把接口开放给用户,事先上传演讲稿或重点内容会不会好一些?」实现这一点不难,单仍旧谈不上进步。要知道,大会演讲通常是来也匆匆,去也匆匆,嘉宾上阵 PPT 马上跟播,不可能有充裕的时间来完成私人定制。
趔趄之中,倒逼着搜狗同传的技术团队研发更智能、更敏捷的同传系统,让机器自觉地定制语境,摆脱人工干预。
「原来我们以为,人工同传只是戴着耳机去听演讲者在讲什么,」陈伟后来了解到,同传的过程不是全程无材料的「裸翻」。同传师坐进全玻璃的同传箱之前,需要提前准备一到两天的时间,了解活动当天的全部背景资料。
以往的机器同传,仅仅是通过语音技术来识别讲述内容。而搜狗同传 2.0 的产品启发,实际上借鉴了人工同传的流程。在同传的过程中,除了做好语音识别以外,团队意识到,视觉信息同等重要。
实际上,」每个演讲者都有一套自己的话语体系,」陈伟指出,基于搜狗同传 2.0,团队引入 OCR 技术,通过摄像头或数据线来捕捉 PPT 内容,算法实时在后端分析 PPT 的核心关键词,搜狗同传 3.0 的就绪度已完成了 50%。
识别翻译协同模块进化前后的语句对比
多模态+知识图谱=语境引擎
当自动化定制成为过去式,最新发布的搜狗同传 3.0,内核进化成为了「语境引擎」。除了「语音信息+OCR」的结合方式,升级后的产品,最大亮点是在「能听会看」的多模态基础上,注入了思考和推理能力,背后靠的是知识图谱的加持。
从机器同传的流程来看,当机器视觉捕捉到核心关键词之后,会根据搜狗的知识图谱技术,把相关的词汇以及专业领域相关的词语拓展出来,作为语音识别和翻译的加强。
这一点非常重要。通过语境引擎构建的个性化知识,团队在某一专业论坛做了测试评估,结果显示其识别准确率提升了 21.7%,翻译正确率提升了 40.3%。补足了上一代从 PPT 获许不到太多关键词的短板。
从搜狗同传 3.0 在某论坛的的评测效果来看,满分为 5 分,人工同传得分 4.08,搜狗同传 2.0 为 3.41 分,搜狗同传 3. 为 3.82 分。「这说明这说明 3.0 的系统距离人工同传的水平更加接近,它更像一个专家和内行一样,去解读和翻译大会,」陈伟表示
以搜狗同传 3.0 实际应用效果为例。案例一的背景是围绕阿尔法狗和李世石的人机大战。「投子」是一个围棋术语,没有语境的前提下,2.0 版本会把这一词汇识别为「投资」,但 3.0 版本可以根据 PPT 的内容,拓展出「投子」的术语。
类似的案例还有「罗辑思维」。搜狗同传 2.0 的系统没有办法捕捉语境信息去做优化和增强。3.0 版本,系统根据罗振宇的知识图谱做拓展,自动判定跟他密切相关的是「罗辑思维」,而不是「逻辑思维」。
值得一提的是,3.0 版本在英文词汇方面,对观众更加友好。例如在医学领域,「INI」对应的是「国际神经科学研究所」的中文译称。以往,机器同传的结果会直接显示「INI」,普通听众很可能不太清楚其具体含义,基于机器对知识图谱进行拓展查询,在搜狗的专业中英文知识库中,就可以找到与之相应的中文解释。
语境引擎是搜狗同传3.0取得突破的关键
2B 最终落向 2C
「我们认为未来面向人和机器交互过程中,一定是多模态的」,搜狗提倡的技术主张,使机器同传和同类产品拉开了一代之差。「他们还是以同传为主,我们已经从语音跨到了多模态,并把对于知识和语音的理解放进去,使同传开始具备一定的认知能力。」
必须要承认的是,无论是搜狗同传还是其他玩家,大家目前距离顶级同传的水准还有很长的路要走。虽然真正到金字塔塔尖的同传人才十分稀少,但陈伟认为目前的机器同传能力和顶级人工同传相比,仍存在不小的差距。
显然,针对极高规格的会议场景,现阶段的机器同传还达不到要求。不过在复杂要求不高,辅助观众和听众跨语言交流的用途中,其发挥的作用愈发明显。因此,行业应该要抱着向人工同传学习的态度,「而不能说今天六级,明天八级,后天机器超越人工了,这不是特别好的心态。」
除了大会演讲这种 2B 同传场景,未来,机器同传可向记者采访、跨国办公会议、中英文视频直播、字幕翻译等场景延展。这些应用场景最主要的挑战,是怎么保证机器同传的稳定效果,考验的是采集设备、网络环境、识别能力等。「预计迭代到 3.5 的版本,技术沉淀后的能力,就可以向这些场景做覆盖了。」
尽管搜狗通过技术迭代不断地教育市场,不过机器同传并没有在过去一两年迎来爆发,搜狗同传也并没有通过大会获取收入。其中很重要的因素在于,「跨代跃进的效果提升,需要一个研发周期,在这个过程中不能盲目地向 B 端市场狂推。」陈伟明确指出,搜狗同传更多的是代表了搜狗在 AI 方面的核心竞争力和技术驱动创新上的成果,所以「不会是一个很赚钱的行业」。
而搜狗在 AI 语音商业化的进程,最终的指向还是 2C。陈伟预判,未来各种各样的场合都可能用到搜狗同传的技术,通过同传打磨的能力也可以反向用于搜狗的 C 端产品。「我们希望以搜狗同传在大会场景和 B 端的经验、数据为基础,不断打磨 2B 输出的能力,最后反哺到 2C 端的市场中。」
责任编辑:卧虫
图片来源:VPhoto、搜狗
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: