机器理解能力将超过人类？

Sharer: 36氪 August 27, 2019 at 1:39 am

Link Share :http://36kr.com/p/5239772.html?ktm_source=feed - via RSS

想想这样一个画面：在剧院的舞台上，一名女子坐在一架钢琴前。

那么她将要：

A）坐在长凳上，同时，她的妹妹在玩洋娃娃；

B）当音乐响起时朝某人微笑；

C）在人群中，看舞者起舞；

D）紧张地把手指放置在琴键上；

事实上，作为人类，我们很容易地就能推断出可能的情况：一个女人在演奏钢琴，一群人在看着她。我们甚至还能推断她即将进行的下一步行动：她将自己的手放在钢琴键上，并开始演奏。

这是2018年8月，一家总部位于美国西雅图的艾伦人工智能研究所（Allen Institute for Artificial Intelligence），在一篇文献中提到的一道给机器的英语测试题。当时，机器的正确率只有大约60%。

但是现在看来，机器的理解能力正在，或许已经超越人类。

机器理解能力究竟如何？

所谓的机器阅读理解，其概念和大家学生时代所做的阅读理解基本相似，同样是给出一段材料和问题，给出正确答案，不过主角从人类换成AI模型。

虽然机器阅读理解看起来只是让AI上阵来一场考试，但是却是自然语言处理技术中，继语音判断、语义理解之后最大的挑战：让智能体理解全文语境。

简单的来看，语音识别帮助机器“听”，图像识别帮助机器“看”，但机器如何做到听懂和看懂，是语义理解解决的问题。

相比于拼写检查和自动翻译，语义理解不只是运算和记录，而是主动分析和理解，所以阅读理解问题一直被认为是自然语言处理（NLP）的标志性临界点。

自然语言处理的其中一个关键就是语义理解，因为机器无法做到人类对自然语言的理解，就比如文章开头的问题。所以，语义理解也一直被认为是“人工智能皇冠上的明珠”，它融合了语言学、计算机科学、人工智能，其目的就是“让机器可以理解自然语言”。

语义理解也一直是科研和资本关注的重要方向。据2018年年底腾讯研究院统计，在中国人工智能企业中，融资占比排名前三的领域分别是计算机视觉与图像，自然语言处理，以及自动驾驶/辅助驾驶，而排在第二名的自然语言处理，融资122亿元，占比19%。

“就像人去看电视一样，人是同时看着画面、听着声音、看着字幕来综合理解，人脑所作的工作就是多模态语义理解。”深思考人工智能CEO兼AI算法科学家杨志明在此前的“2019WISE超级进化者”中提到。

事实上，机器阅读理解的一些重要赛事和指标也正在被不断刷新和突破。

2018年，斯坦福大学著名的机器阅读理解赛事SQuAD，阿里巴巴曾凭借82.440的精准率打破了世界纪录，超越了人类82.304的平均得分。2018年11月，谷歌发布的BERT模型，在机器阅读理解顶级水平测试SQuAD1.1中，全部两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩。

而最近由中国计算机学会（中国计算机领域最权威学会）、中国中文信息学会（人工智能自然语义理解最权威学会）和百度公司联合举办的“2019机器阅读理解竞赛”中，经过全球2502个团队长达2个月的激烈角逐，深思考人工智能在两项评测指标中均登顶全球榜首，成功夺取全球冠军。

目前在很多公开的数据集上，如在英文最具权威的SQuAD2.0数据集中：EM和F1两个指标上，人类的表现分类为86.831和89.452，而目前PINGAN团队所研发的模型已取得了EM值88.592，F1值90.859的表现。

图片来源：SQuAD官网

换句话说，某种程度上，机器的阅读理解水平已超越人类。

而在中文最具权威的DuReader数据集中，ROUGE- L和BLEU-4两个指标上，人类的表现为57.4和56.1，深思考所研发的BMAnet模型在这两项指标上取得了63.13和59.34的表现。

机器阅读理解是机器理解的重要任务，也是语义理解的重要组成部分。机器阅读理解中数据指标的突破，往往也就代表着机器理解或是语义理解的突破。

而深思考所取得的技术性突破，会在现实生活的应用场景中如何落地？

多模态，语义理解的不可或缺

“机器翻译准确度90%以上，万字翻译只需5秒钟”，或是“语音识别准确度超过98%”，这样的描述，代表着人工智能正在快速发展，图像和语音识别的准确率正在飞速提升。

但这距离真正的人工智能，仍然有不小的距离。尤其是在人工智能落地的场景之中，光靠图像识别的“看到”，和语音识别的“听到”是不足够的。

以日常生活中，大家接触的智能音箱和智能家居为例。

2017年Mingke Luo的《为什么现在的人工智能都像人工智障》曾刷屏朋友圈，而在今年年初，作者又写了一篇名为《所有智能音箱都是智障，包括Siri !深度学习对此无能为力》的文章。其中提到一个有趣的实现，2016年底，作者对几个智能助理提一个看似简单的需求，“推荐餐厅，不要日本菜”，结果所有智能助理都给出一堆日本菜餐厅的推荐，而2年后，再做这个实验，问题依然没有解决，“不要”两个字仍然被一致忽略。

“人类说话的时候，往往是口语化的、不连续的、支离破碎的，甚至语序颠倒的。语音识别只停留在语音指令，不能理解用户语言及背后的逻辑，实际无法解决用户在很多场景中的刚需。” 杨志明在采访中告诉36氪。

他以智能家居的对话场景举例。

比如用户对着家里的空调说，“请把空调调到28度”，这时几乎所有的空调都能够完成这样的指令。

但是如果用户对空调说，“我有点热了，把空调调低一点，调到我习惯的温度”，这时候语音识别就不能解决问题。这背后就有两层逻辑，第一，用户觉得热了，应该把空调打开，第二，就是调到用户平时习惯的温度，即存在个性化设置，机器需要理解用户语言背后的意义。

无论车载智能设备，还是智能音响、智能家居，用户使用这些产品的目的，都是为了更方便的生活，而目前来看，使用这些设备更多是用户通过“背”指令表完成。

杨志明提到一个形象的比喻，现实生活中，不少企业家和高管，都配备秘书，他们想要的秘书，绝不是一个只能遵从命令办事的执行员，更多是听懂他们，只需要一句“你去帮我办这个事情吧”，就能帮助他们解决问题的角色。有时，甚至是他们不用开口就知道该做什么的可以信任的人。

通过上下文的指代消解、意图理解、对话管理等技术，深思考推出的产品提升了机器阅读理解的能力，并为更多行业解决方案的落地，提供有效的产品支持。

以车联网场景为例，传统智能车载系统，通常通过驾驶室的智能语音交互屏幕实现人机互动。但随着座舱的发展，如今的驾驶室不再是一个简单的驾驶室，而是汽车行驶过程中的中央多模态信息的汇聚地。比如智能车联网场景下，汽车跟道路基础设施之间、汽车跟汽车之间、汽车跟互联网之间都能够做信息的连接和交互。车辆本身也通过视觉对车外的环境做感知与理解，再加上温度传感器、语音信息输入传感器等。

在智能车联网有很多模态的信息，有手势的模态、语音的模态、图像的模态。数字化场景下，深思考提供的技术，就能为对上述多模态信息进行综合理解，为人车交互提供智能大脑。同时，还可以在座舱环境下，实现人、车和家庭的连接。

再加上RPA自动软件机器人，不光可以实现人车对话，车辆还可以自动帮助驾驶员完成任务，比如预定会议室、与其他智能设备的联动、执行等。

“比如看一个电视剧，眼睛看画面、耳朵听声音、眼睛看字幕，对不同事物不同状态，人脑可以同时做理解。但AI还停留在识别与感知阶段，人脑更多是语义理解，而且是多模态理解。”杨志明在去年的一次分享中提到，模拟的人脑举一反三，在目前AI小的计算资源下快速和低功耗的运行，是深思考致力解决的类脑AI技术。

作为人工智能研究中最难的部分， 语义理解技术的发展，让机器有了更强的阅读理解能力，这也让未来人机交互有了更多可能性。

未来的可能性

“最新语义理解的技术，可以像人一样，看完一本书以后，问你这本书里面的问题。它对这本书里面的非结构化的信息进行多模态理解以后，可以像人脑理解以后再回答问题。”杨志明在采访中提到，人在看完一本书回答问题时，不会先整理出问答对或者知识图谱，而是凭借大脑的理解，直接回答别人的问题。

目前，深思考所研发的技术已经具备了上述能力。通过非结构化、长文本的机器阅读理解，避免了传统语义理解或者智能客服，用大量的人力物力去构建知识图谱或者问答对。而借此，深思考能让语义理解，像语音识别和图像识别一样，进行大规模的商业化场景的落地。

杨志明解释，深度学习的快速发展，也为语义理解带来更多的提升。比如意图分类等统计学记忆方法的准确不高，深度学习进一步发展，进一步提高了这类语义识别的技术。其次，深度学习之下的新型语义理解模型，让语义理解准确度变得更高了，实现了突破。

今年6月，工信部正式对国内运营商发放5G牌照，国内的第四大运营商也正式诞生，让人们看到，无人驾驶和远程手术的近在咫尺。虽然离大规模商业化应用还有一定时间，但是5G对人工智能带来的改变也是值得期待的。

《2019年中国人工智能行业市场分析》中提到，国际会计师事务所毕马威近日发布研究认为，当前，5G技术在主要垂直行业的全球市场潜在价值预计可达4.3万亿美元，而这4.3万美元的市场，显然离不开AI的作用。

“更重要的是解决及提升物联网和AIoT设备语义理解的能力。” 杨志明告诉36氪，5G的三大技术特点“高速率、低延迟、超大数量终端”让物联网设备大有可为，但离线端语义识别的技术突破，也不可小觑，未来在端的部分，也可能会有语义理解芯片的成功研发。

杨志明举例，比如在无人驾驶场景中，时常会面对信号弱的情况，例如过山洞、隧道等，同时，虽然5G能够连接超大数量的终端，但是终端连接的越多，传输的速度就越慢，这就需要终端同样具备部分的语义理解的能力。

未来的场景之中，更多的情况是，终端设备首先具备各项传感器，能够多维度的收集信息和数据，同时芯片的植入，又能让这类设备具有如图像识别、语音识别、语义理解等人工智能能力，而云端则是更强大和更准确的技术支持。一方面，如果所有终端的处理，都由云完成，云的压力过大，另一方面终端设备必须具备复合的能力，才能让机器更好的理解人类意图。这也印证了，杨志明始终坚持的方向，语义理解一定是多模态的。

同时，产业互联网的发展，也为人工智能应用的落地，提供了良好的环境，产业互联网实现的是，不同行业之中的互联网等技术的落地以及场景闭环，这和人工智能所在做的突破是一样的。

杨志明此前提到，AI语义理解里面的关键点，实现AI的落地场景的四个闭环，包括，业务闭环、数据闭环、模型闭环和产品闭环。目前深思考在智能车联、医疗健康、智能家居、智能手机等方向，均有头部客户实现成功的商业落地。

“随着5G和物联网的发展、产业互联网的发展，我们将深耕端和中央智能，成为万物互联里面的语义理解的大脑。” 杨志明在采访中提到。

作者暂无likerid, 赞赏暂由本网站代持，当作者有likerid后会全部转账给作者（我们会尽力而为）。

Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.

Support author:
Author's Filecoin address:
Or you can use Likecoin to support author:

tags:内容

0 0