出门问问李志飞:如何抵达人机交互的「终极自由」|IF X
「定义下一代人机交互」,这是出门问问给自己定下的使命。这个还等待被定义的抽象标准,是公司创始人兼 CEO 李志飞口中的「具体愿景」。这家创办 7 年的 AI 公司,正在通过不断开拓新赛道,开辟新战场的方式去践行这个愿景。
出门问问 2013 年做中文移动语音搜索引擎,2014 年做智能手表操作系统,2015 年做智能手表,2016 年做车载产品,2017 年做智能音箱,2018 年开始 to B,还做了智能耳机。从扎根国内到进军海外,从 to C 到 to B,从软件到硬件再到定制全栈式 AI 解决方案,可以说,李志飞将「该插的旗都先插好了」。
以语音交互和软硬结合为核心,再以声音信号处理、对话管理、智能推荐和语音合成等 AI 语音交互技术建立壁垒,出门问问一直有新鲜故事可讲。
在 GeekPark IF X 的会场上,李志飞说到,「科技带来了更高的生产力,同时带来了相应的不自由。」而要个人设备层面的人机交互「终极自由」,他说那种自由是「自由得让你忘记这个是什么设备、在哪里,你人到哪里智能就跟到哪里。」让设备更小型化,交互更多模态,虚拟助理更智能且跨场景的能力更强,这是出门问问正在推进的事情。
「刚开始不知道什么是下一代最优的人机交互,好,那我就深度优先先做个完整的、简单的人机交互出来,是不是下一代最优我不知道,如果发现不够好,就改变某些节点换一条路径。」李志飞在接受甲子光年的采访时说道,「如果你连上海在哪都不知道,你首先要摸这个地图。」
触摸「定义下一代人机交互」这个愿景,这家创业公司不断摸索,不断试错,也正在不断变得「全能」。
以下内容为出门问问创始人兼 CEO 李志飞在 GeekPark IF X 中的演讲实录,经极客公园编辑整理:
大家上午好!今天的主题是《通往人机交互「终极自由」的 AI 之路》,首先,说到「终极自由」,这是一个特别复杂的问题,很难去定义什么叫「终极自由」,而且很容易产生很多的歧义。
为什么要讲这个东西?作为一个工程师,我一直都在思考科技和自由的关系到底是什么。工程师特别想通过自己的科技去改变世界,让这个世界变得自由,让人的效率得到提升,但实际中科技有的时候并不一定让人自由。
所以,我想从一个工程师的角度,去阐述科技到底怎么样给人带来自由。前面说到「终极自由」是一个特别广泛的主题,我主要是讲人机交互,更具体一点是个人设备的人机交互,因为人机交互可以有很多,像刚刚讲的自动驾驶也是人跟机器的交互,但是他更多是一个车的场景,而不是一个个人的设备。
所以,我今天想讲在个人设备上人跟机器的交互方式的变更,以及怎么样让人变得更加的自由。大家可能都看过这个图,人机交互中个人的设备是不是让我们变得更加自由?在我看来其实是不一定的,人类通过这么多年好不容易站立起来,但是因为有了手机我们又重新低下了头,这是一个非常可悲的事情。
而且,大家可能都不知不觉你都不认为这是一个问题,所以我现在想做一个调查:
第一,你用手机的时间是多长?
第二,你每天解锁手机的次数是多少?
我看到了一个数据,觉得很惊奇,我看了一下自己的手机(iPhone 上面有一个「屏幕使用时间」),就是很多人的使用时间超过 7 个小时,我记得我的是 7.5 个小时。每一天的解锁次数超过了 70 次,也是很多的,我应该是 80 多次。
这就是一个现状,而且很多人都意识不到这是一个现象或者是一个结果,带来的就是所谓的「手机病」。当你的手机不在你的身边你就焦虑,比如说现在我的手机就不在我的身边,我哪怕是在这种场景下,我还是下意识去摸一下我的手机在什么地方。
另外就是眼睛的问题,比如说我早晨起来真的会觉得特别干,甚至手的变形,当然还有更多的毛病,比如说颈椎,这就是一个结果,而且越来越多的人存在这个问题。这是一个很重要的原因,就是因为今天手机的这种设备的形态,可能就不是最优的形态,使得我们使用时长特别的长,带来的后果也特别严重。
刚刚是设备形态,另外是交互方式,如果说这个手机你永远放在兜里面,你不用 70 次拿出来解锁,然后花 5、6 个小时去跟它进行交互,可能也不是问题。但是,很不幸,由于我们今天跟手机交互的方式主要是按键跟触摸,这使得我们一定程度被手机绑架。
另外,虽然是叫智能手机,但是智能是非常有限的,所以智能手机不智能,比如说跟人机交互或者是对话特别相关的对话做不好,没有上下文,也不能理解你说的是什么话,甚至也不能够主动给你提醒、推荐。你每一次都需要自己拿手机,然后不停地看,生怕漏了什么东西。
如果我们的智能足够智能,在你有需要的时候给你一个通知或者振动,你去用一下,就不用一直盯着这个屏幕,可能也会避免刚才说的这些问题。
所以,科技虽然带来了更高的生产力,同时也带来很多不自由,那什么是「终极自由」?这是一个特别复杂的问题,而且作为科技来说,当我们想像未来的时候是特别危险的,或者特别容易打自己脸的,所以我不想说 10 年以后会怎么样,我更多讲的是未来这 10 年之内有可能怎样,因为我不是一个未来学家,也不是一个科幻学家,所以我更多是说未来 5-10 年里面人机交互方式怎么样变化,能够给大家带来更多的自由。
整个人机交互设备的大变化是越来越小型、越来越便携,比如耳机、智能手表,或者未来的眼镜,它像你的墨镜一样轻,戴在眼睛前面就有屏幕,甚至是你的 ID,比如在你体内植入一个芯片,所有设备可能都是屏幕,只有人一靠近,可能这个设备也不是你的,但是因为是统一的 ID,你一进去,所有的 app、内容都是跟你相关的,而不是别人的。
这个也不是一个特别难以想像的事情,无论是你的邮件,还是你的微信,只要是用你登录的,一进去就是你的,其实你没必要有一个专有的设备、一定要跟着你的设备。
所以,未来的这种设备一定是小型化、便携化的,而且到处都是设备,但是你的 ID 跟你相绑定。
交互方式现在更主要是屏幕、键盘,未来肯定是多模态,无论是语音、手势,还是视觉,甚至是你要说是还是不是,用脑电波来提取信息都有可能,这是交互方式上的。
还有一个是背后的智能,跟人一样,你可以想成我的手、脚、嘴巴,这些是交互的设备,但是视觉、声音是交互的方式,所有的交互背后都需要有一个大脑思考,这就是我们所说的智能。
未来是一个虚拟个人助理,它就是你的大脑,能够无处不在,呼之即来,挥之即去,而且它是非常个性化的体验,未来可能没有你个人的设备,只有你自己的 ID,人一到这里,可能前面的设备就成为你的设备了,别的东西都不需要了,所以这是我们想像的一个未来。
接下来我想放一个视频,我特别喜欢这个视频,这是 3 年前拍的,我觉得它带有一点感性,也代表一种有现实性的对未来的想象。
刚才提到这个视频有一点感性,不太像一个工程师能够想像出来的东西,但是我觉得它可能代表了感性与理性之间的平衡,未来云端的虚拟个人助理就是无处不在,呼之即来,挥之即去。
今天的现状是人被手机绑架了,未来有可能是什么样的状态,这个中间要解决什么问题,这些问题是不是能解决。大家可能看了觉得特别具体,比如说功耗的问题,这个确实是过去几年没有看到特别大变革的事情,而今天所有的设备为什么做成这样,手机、耳机、手表为什么是这个样子?因为大、不方便,而且每天要充电,特别大的问题就是续航,如果电池有革命性的变革,整个的设备形态都会有非常革命性的变革。
另外,讲到了交互的方式,我们无论是讲到自然语言理解,还是未来 VR、AR 显示的方式,今天都需要很多技术的突破。自然语音理解可能大家都知道难度,因为大家都用到各种各样的语音助手,智能本身我觉得也是非常难的一件事情。
是不是说今天不自由?另外是我们想象的终极自由,这里面又有这么多技术上的挑战,我们是不是就只能等?比如说等个 5 年、10 年,等到电池变革了我们再去做事情,其实不是的,任何的科技都是连续性的,不是突破性的,从一个长周期来看,可能都是连续性的。
而我们作为一个创业公司,到底去做什么让人机交互的方式越来越逼近我们想象的?接下来有几个例子来看一下出门问问的一些产品形态,到底是怎么样逼近我们刚刚说的「终极自由」。
第一,智能手表和智能的无线耳机,可能 5 年前我们讲这个的时候,大家第一反应就是 Apple Watch 没什么用,但是如果从 5 年的周期来看,Apple Watch 变得非常好了,至少比以前好了很多。
第二,用户的渗透率比以前高了。
而智能无线耳机,这也是一个产品,很多人刚开始的时候都觉得这个特别的不靠谱,但是今天来看 AirPods 已经成为了一个普适性的产品,而且产品的特征就跟前面说的越来越小、便携。
像出门问问自己做过的一个智能无线耳机,应该是两年前在极客公园发布过,我们今年又发布了二代的无线耳机,体积比一代小了整整 45%。所以,当你用两年的周期去看,其实这个趋势特别明显。
在我看来,到底什么是接近「终极自由」?在未来两三年能够实现的新的手机以外的计算平台,能部分的代替手机使用形态的,我认为是智能手表跟智能无线耳机的结合,尤其是智能手表本身是自己可以联网,不需要通过手机联网的。
接下来我想给大家看一个视频,当一个 4G 的智能手表再加上一个智能的无线耳机,当它们结合起来,这个耳机通过蓝牙连接到手表,手表自己直接通过 4G 连接到互联网上,是什么样的产品形态。
无线耳机连接到手表,手表通过 4G 连接到网上,这个可以干很多事情,里面没有讲到的是各种多模态的交互,比如说当人打电话进来,你只用点两下头就可以接电话了,摇两下头就拒接电话了,包括语音的唤醒词,比如说你放音乐的时候,不用说「嗨,小问」,你直接说「下一首」,它就开始下一首了,说「停止播放」它就停了,说「开始播放」它就播放了。包括讲到的更复杂的语音交互,比如说秘书的功能。
当一个智能无线耳机和手表连接以后,在这种情况下,当你出去跑步的时候,当你到楼下散步 30 分钟的时候,你其实是不需要带手机的,因为电话号码跟你的手机一样,听音乐、打电话、发消息、听消息都会通过语音交互进行。
这种交互形态已经是多模态的了,耳机侧面的触摸区域,我们可以调音量,直接往上划一下就可以调了,往下划一下就是减小音量,刚才讲的是姿态、手势,还包括一些语音的复杂功能。所以,这个产品今天看起来就是一个硬件,但其实可能就是逼近「终极自由」的终极形态。
另外我们所有的这些设备,无论是手机、手表,还是耳机、车载设备、音箱设备,在过去都是独立的,比如当你在音箱上听了一首歌,听到一半,你现在要出去,到了车里面,它就立马知道你在家里听的这首歌,继续放这首歌。
出门问问在过去几年做了很多探索,无论是音箱、车载、手表,还是耳机,我们最后都希望通过同一个虚拟个人助理,使得这些设备体验可以延续,而且这个不是一个描述性的东西,我们在一些实际的车里面(江淮大众思皓)操控家里的空调,在路上发地址给车里面,然后一上车,点一下导航就可以走了,不需要到车里再开始做语音的交互。
所以,这也是一种产品形态,自由得让你忘记这个是什么设备、在哪里,而应该是你人到哪里智能就跟到哪里。
下一个产品某种程度上也是能够增加大家自由的,比如说我有很多骚扰电话、陌生电话,有时候我不想接,但是我又怕真的接了以后是投资人要投钱给我,或者说客户要买东西、媒体要报道我们,所以这个时候特别纠结。
后来我们做了一个电话助手产品,只用关注我们的小问电话助手公众号,进行呼叫转移,当别人打电话进来的时候,如果是陌生号码,我就不接,机器人自己开始接,或者说手机不在你旁边,你根本就没接,就是机器人接。
这个极大增大了我的幸福感,降低对手机的焦虑感,因为再怎么样有一个机器人帮我接了,接完以后会给我发一个微信,我回去看一下那个微信,听一下到底在讲什么就行了。当然我最后发现没有投资人、媒体、客户,绝大部分都是骚扰电话。
接下来我想给大家放两个视频,这是完全真实的,一个是我的机器人,另外一个是我们工程总监的机器人接电话的记录,这里面有一个特点,给每一个人都产生了一个个性化的 TTS(Text To Speech,即「从文本到语音」),就是我录三五分钟声音,机器会模仿我的声音,把文字输进去,它就发出我的这种声音,大家可以听一下。
第一个骚扰我的人他知道接的是机器人,但是他还骚扰得如此理直气壮,第二个是那个人打给了我们的同事,但是这个机器人一直在告诉他说,不是自己,但是人家说你骗我干嘛,你就是你自己。
所以,人跟机器、机器跟人已经很难分清楚了,但是我知道确实是能够大幅度降低对手机的依赖,而且让我们更加自由。
最后总结一下,终极自由我们不是不能做事情,而是我们可以比较现实地去看哪一些东西可以做,所以无非就是做更小型、更便携的设备,更多模态的交互方式,而且是更加智能的虚拟个人助理。
谢谢大家!
图片来源:VPHOTO
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: