手机上的实时语音转录,谷歌为听障人士连接世界
现在,只要使用一台普通的安卓手机,有听力障碍的人们就可以和他人进行直接无障碍的对话了、和谷歌的大多数产品一样,这种工具支持多种语言(包括中文)。
谷歌Live Transcribe的语音转录效果
近日,在一个媒体沟通活动中,谷歌向我们展示了这一最新产品,并介绍了它的开发历程。
据世界卫生组织 (WHO) 估计,全球目前已有 4.66 亿耳聋及听障人士;而到2055年,这一数字将高达9亿。“在65到74岁的人群中,约有三分之一的人报告自己有听力障碍,”GoogleAI产品经理Sagar Savla在活动中介绍道。“我在印度居住的祖父母就有听力障碍。而这些老年人习惯了正常形式的交流,当出现了听觉障碍后生活就会很不方便。”
自动语音识别(ASR)技术能够让计算机检测到人类对话的语言,并将其转录为文本以供阅读。此前,这种方法已经可以为视频自动添加字幕,并可以为电话提供语音转录的文字显示。然而在很多场景下,这种技术还无法部署,它面临着延迟大、设备要求过高等问题。
谷歌一直在试图解决这些挑战。据介绍,Live Transcribe团队成立于去年,其提出的人工智能语音识别技术目前适用于一对一对话形式,并主要依托云计算处理信息。Live Transcribe所搭载的平台是全球分布范围最广的安卓系统——现在全世界已有超过20亿台安卓设备。
Live Transcribe在转录语音时可以很好地结合上下文,减少识别错误。为了让最终产品更加易于使用,开发者们与Gallaudet大学进行了用户体验的研究,并找到了语音转录效率最高的显示方式。目前,它在对话时语音转录的反应延迟低于200毫秒。
软件可以显示语音转录文字的置信度(上图左),但谷歌的研究人员发现这种方式可能降低人们的阅读效率 Live Transcribe采用了两种神经网络:手机上的网络被用于分类声音,如狗叫和小孩的哭声;分类后的人声信息则交于云端基于RNN的神经网络进行语音识别,其可以在7个字之间上下文范围内进行纠错。
为了提高效率,谷歌在先前AudioSet的工作基础上,实现了基于神经网络的设备端语音检测器。该网络是一种图像式模型,类似于此前发布的VGGish模型,它可以检测语音并自动管理与云ASR引擎的网络连接,将长时间使用过程中的数据流量消耗降至最低。
“谷歌服务器云端处理的方式可以让Live Transcribe覆盖更多人群,并适配更低配置的手机。”Sagar Savla表示,“目前,这一工具可以安装在全球20多种安卓设备上。”
这一工具已支持70种语言,其中包括英语、汉语、西班牙语等主要语言,这意味着它可以覆盖80%以上的全球人口。对于双语家庭而言,Live Transcribe也可以通过快速切换功能处理两种语言。
为了让更多人能够获得Live Transcribe带来的便利,谷歌的开发人员尽可能地减少这种系统的需求。据介绍,其手机端模型大小仅为4m,以便让四五年前买到的智能手机也可以安装。“在设计这个产品之初,我们发现大多数听障人群的设备配置并不高。”Savla介绍道,“但只要有网络,我们的工具就可以工作。”
选择手机作为载体,Live Transcribe也面临着缺乏麦克风阵列的问题。语音识别的一大挑战就是“鸡尾酒会问题”——在背景噪音、多人声存在的情况下,人工智能算法往往无法分辨出目标人的语音。为了解决这一问题,谷歌团队采用了最简单的方法:设计一个两个同心圆形的提示器,若现场噪音过大,则提示“听者”前往一个更安静的地点继续对话。
Sagar SavlaLive Transcribe项目在谷歌不仅建立起了一个开发团队,也吸引了重量级技术人员的参与——Dimitri Kanevsky也参与了这个研究,他是一个俄裔著名学者,也是一个天生的聋人,早在1998年Dimitri就在开发了第一个远程转录系统,并曾获得美国的很多国家级荣誉。“大腕级的人物加盟推动了新工具的发展。”Sagar Savla表示。
Live Transcribe只是一个开始。目前,这一工具已在谷歌Pixel 3手机上的GBoard上开始了应用。在未来,谷歌还希望能把这一技术推向更多种类的手机,并增强系统的抗噪音能力。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: