祝铭明:摸到边界的方法是把体验做到极致
多年以后,祝铭明站在自己刚刚装修好作为住宅的厂房里,一定会想起母亲带着他去机械厂里玩的日子。
当时,创业还是一个新鲜而陌生的词语。身为工程师的母亲和朋友一起创办了一间机械加工厂,还在襁褓中的祝铭明,就在这间工厂浓重的机油味和隆隆的机床声中一天天长大。
13 岁那年,祝铭明拥有了自己的第一台电脑,写下了人生中第一行代码。
这一年,发生了很多大事。
万维网(World Wide Web)诞生了,GPS 的第一颗卫星发射升空,IBM 的国际象棋机器人深思虽然败给了棋王卡斯帕罗夫,却展示了惊人的计算速度:每秒 200 万步。
人们隐约感到,一些重要的变化正在发生,一个前所未有的时代就要来了。
顺势而为的首次尝试
2007 年,祝铭明开始第一次创业,在杭州创办了做手机操作系统的猛犸科技。那还是一个 MTK 平台和山寨机大行其道的年代,祝铭明判断未来的手机系统一定是一个开发方便、跨平台、基于 JAVA 语言的操作系统。
刚开始,都大家感到不可思议,靠一个十几个人的小团队,就想做操作系统?祝铭明花了几个星期时间把架构搭了起来,其他人随后往里添加东西。猛犸 OS 的雏形竟然就这么做出来了。
但是全球金融危机也来了。
大环境一下子变得很冷,行业的发展速度骤降下来,手机硬件水准在一个算力明显不够的平台上停留了很久。硬件上不去,操作系统也就无从发展,猛犸 OS 和祝铭明都进入了一个很难熬的阶段。
作为创始人,他还得很淡定地见客户,给团队打鸡血鼓舞士气,用产品体验和用户的口碑来激励他们。
这一熬,就是一年半。
后来是阿里巴巴伸出了橄榄枝,先是战略投资,然后收购了猛犸科技。猛犸 OS 也逐渐变成了阿里 YunOS。
从这个项目开始,他展现出后来令投资人和创业伙伴们颇为称赞的前瞻意识。
2013 年,看重祝铭明的技术前瞻性,阿里巴巴委任他为 M 工作室的领头人,进行一些在当时颇为前沿的探索,包括机器人、图形图像识别、二维码扫码等,还有跟导航、车载相关的,以及最新的蓝牙技术。
M 工作室更像一个实验室,没有太多的业务压力,牛人很多,是所有厉害的程序员都梦想要去的地方。但这些并没有让他满足。
「 比别人高十倍」的要求
2014 年,祝铭明离开阿里,创立了 Rokid。
这一次,他跟团队说要做机器人和人工智能。
此时的人工智能行业正处在巨大的变革期,其中最具突破性的深度学习技术开始真正商业化。2014 年初,Google 花 6 亿美金买下了人工智能初创企业 DeepMind。微软也在这一年发布了「微软小冰」。
祝铭明给 IDG 资本副总裁楼军画了一张产品草图,是一个蛋形的音箱。
在杭州北部软件园的 Rokid 办公室里,这个蛋变成了一个快递箱,上面插着电路板、摄像头、灯珠,还有国内第一个实现远场语音唤醒的的麦克风阵列。十几个人围在纸箱周围,讨论要给它加上什么新能力。
2014 年 11 月,这个插满电路板的纸箱,进化成了 Rokid 的第一款产品:Alien 智能音箱。
▲ Rokid Alien 智能音箱。 图片来自:Rokid
就在 Alien 研发的过程中,Rokid 团队第一次领教了祝铭明的「苛刻」。
在设定音箱唤醒词的时候,技术团队给祝铭明提了三个选项:如果用 4 个字的唤醒词,有现成的技术方案;3 个字的,大概一个月就能搞定;如果要 2 个字的唤醒词,对不起,目前的技术水平还做不到。
祝铭明认为,只有用两个字唤醒才符合中国人的习惯,他选了「做不到」的。
在算法上,随着唤醒词字数减少,要在保证唤醒率的同时降低误唤醒,技术实现的难度会呈几何倍数上涨:每减少一个字,难度翻倍。
为了减少这一个字,Rokid AI 实验室的两位博士被「虐」了整整一年。最终使 2 个字唤醒词达到同类产品 3 个字、4 个字唤醒词同等的唤醒率和误唤醒水平。
直到现在,在众多智能音箱中,只有 Rokid 实现了两个字的唤醒词。祝铭明认为这是 Rokid 赋予自己的使命,去做其他公司不愿意做的一件事:探索自己能力的边界。
在做 TTS(语音合成)的时候,几乎同样的事情再次发生。
行业内做 TTS 的一般方法是,首先设定好语音的条件——性别、年龄、音色,然后找演员,选个报价合适的录音,录完了让算法工程师一合成就行了。
Rokid 则先设定了「若琪」的人格,然后找了 50 多个人来,听谁的声音最像他们想象中若琪的声音,第二步从中挑选了 5 个人分别录音,再用算法合成,听合成出来的声音,挑选最接近「若琪」设定形象的,最终选了一个人。为了保证录音音准,Rokid 专门找来一位音乐学博士,在北京的实验室里一蹲就是一个多月。女演员在录音棚里录音, 博士在外面用耳机监听,稍有音准不对,就重新来过。就这样盯着把两万多句录音一句一句录完。
最终合成完之后,大家一听效果非常明显,这就是人声,完全听不出一般机器合成的卡顿、异样的声音。
如果说,唤醒词和 TTS,都是用户能直接感知到的,还值得花大代价去提升用户体验,另一件事看上去就有点过分了——
▲ Rokid Pebble 电路板。 图片来自:Rokid
这是 Rokid Pebble 智能音箱的内部电路板实拍图,同时也是 Rokid 公司高管用在电脑和手机上的壁纸。
电路板深藏在产品内部,普通用户压根没有机会接触到它,为什么要设计得如此精致?
Rokid 副总裁向文杰说,这块特别设计的电路板,每一块成本增加了 6-12 元,为了控制整体成本,他们在算法上进行优化,降低了对部分元器件的性能要求,这才把成本控制住。
宁可费力优化算法,也不在产品设计上妥协。祝铭明认为,这不仅仅是一个审美偏好的问题,还关系到一个产品从外到里都要坚持同样严格的标准,哪怕在普通用户看不见的地方。
他说:「我希望把团队逼到边界上。你永远要求你的东西比别人能做到的高十倍,最后你将取得一个跳跃性的成果。」
祝铭明深知,进入人工智能这个行业里的玩家,大多是 Google、Apple、Facebook 这样的巨头们,要钱有钱,要人有人。和他们在同一个赛场上竞争,必须有一套完全不同的思考方式,这也逼得他反复地问自己三个问题:
有什么是别人做不到而我们做得到的?
有什么是别人做得到而我们做得更好的?
有什么是别人做得非常好了,而我们能做得不一样的?
正是在追问这些问题的过程中,祝铭明坚定了「追求极致体验」的信念;也正是这样的思考,让他越发清晰 Rokid 与同行们的不同之处。
极致并不是技术洁癖
唤醒词也好,TTS 也好,像画作一样的电路板也好,背后都映射着祝铭明对 Rokid 的定位:
Rokid 是一家人机交互公司。我的追求是一定要逼着团队去摸到行业的边界,既然是交互公司,最简单的摸到边界的方法就是把功能做到极致、把体验做到极致。这不是我的洁癖,而是一种手段。
从 2014 年创办以来,这个定位就没变过。
在此之前,还没有哪家公司把自己叫作「人机交互公司」。曾经,「交互」两个字是用在鼠标、键盘乃至触屏之类的硬件上的,那时它还有另一个名字叫「输入输出」。而到了 AI 时代,祝铭明看到了交互的更大可能性。鼠标键盘也好,触屏也好,并不真正知道你在做什么,它也不干预你的任何决策。但有了 AI 之后就不一样了:
你对着音箱、眼镜、电视,对所有东西讲出你的意图时,实际上在你获取内容之前,你的意图先在交互这个层面被理解,这个时候交互公司就变得有厚度了。
机器进化了,人和机器之间的关系也悄然改变。
作为人和机器之间的一座桥梁,「交互公司」的重要性正日益凸显。从某种角度看,我们今天之所以能容忍人工智能不时地以「人工智障」的水平给出一些令人啼笑皆非的答案,正是因为我们对它的未来充满了期待,我们像看一个孩子一样看待今天的 AI——它还很幼稚,但它正在以惊人的速度成长起来。
或者,用祝铭明的话说:AI 现在还太早,要做一百年。
在祝铭明看来,未来的人机交互一定会越来越自然,越来越多模态、全方位。AR 把感知、体态、语音和视觉全部整合在一起,可以看作是人机交互的最后一次革命。至少,在实现脑机接口之前是这样。
2013 年,祝铭明在美国第一次拿到 Google Glass,对身边的人说:「这个东西是未来,但是 Google 做得不够好。我们一定可以做得更好。」然后,他发了一条朋友圈:「谁懂这个技术来找我,我们一起来做 AR 眼镜。」
2016 年,祝铭明跟团队说要做 AR 眼镜,团队都不理解。
当时看起来也不是一个好时机。Google Glass 的体验远低于预期,得了一个「Google 史上最差产品」的称号,HoloLens 笨重且昂贵,MagicLeap 还没拿出第一款产品。
祝铭明坚定地认为 AR 是未来。
接下来,他在美国组建了专门的 AR 研发团队。
▲ Rokid AR 研发团队. 图片来自:Rokid
像做音箱一样,祝铭明对 AR 眼镜的「体验」仍然要求到极致:要做到跟普通眼镜一样的佩戴感。
技术人员发现,要满足这个要求,结构上必须选择「侧出」式设计,也就是光机位于镜腿的一侧;如果采用光机位于镜框上方的「上出」式设计,就会让整个眼镜看起来像一个厚重的机器,完全达不到「普通眼镜的佩戴感」这个要求。
不仅如此,为了尽可能贴近普通眼镜,就要在做到大视场(FoV)的同时尽可能减小体积,还要控制发热量。市场上能买到的的现成部件大、重、粗,根本满足不了要求。他们只剩下一个选择:对几乎所有部件作特别定制。
▲ Rokid Glass。 图片来自:Rokid
2018 年 CES 消费电子展上,Rokid Glass 面世。整机重量 150 克,外观看起来就像一只普通的墨镜。外媒对这只眼镜的评价相当高,Wired 称它是当年十佳电子产品之一。The Verge 则说 Rokid Glass 预见到了未来。
探索突破让人上瘾
Rokid 的愿景是「Leave Nobody Behind」,不落下任何一个人。这句乍听之下有些费解的话,背后是祝铭明对科技另一面的思考。
2018 年,公司中高层在千岛湖培训,祝铭明跟大家讲了一件发生在自己身上的事。
一天,祝铭明的父亲突然打电话给他,问他:「任意键是哪个键?」
这个故事引起了共鸣,父母那一代人大多不会用最新的科技产品,而当这些产品建构起来的生活方式成为主流时,他们就被边缘化、被时代落下了。
祝铭明把这叫作「科技的黑暗面」。就像他最喜欢的电影《星球大战》里的 Hoth 一样,科技天然就有光明的一面和黑暗的一面,怎样才能找到一个平衡,在一定的场景下让光明面发挥出来而让黑暗面隐藏起来?或者,用他自己的话说是如何「把科技关起来」?
祝铭明认为 AI 是个可能的解决办法:「在 AI 之前,所有科技都要付出一个隐形的学习成本,一旦你不学习你就会被抛弃。AI 让机器真正开始理解你,而不是让你学习它,这就可能普惠每个人。」
在这样的思考之下,祝铭明找到了交互公司的真正使命:让每个人都能享受科技的进步,而不是被它抛弃。
每个人都能看到问题,但不是每个人都愿意去问背后的问题是什么。我愿意去问,一直问到自己答不出来为止。
从祝铭明写下第一行代码,已经过去了 30 年。现在,虽然公司的项目已经不需要他编程,他仍然坚持每天写写代码。
▲ 祝铭明的办公室。 图片来自:Rokid
这一方面是在保持对技术的感受力,让自己始终和前沿的技术在一起。另一方面则出于他对自己的要求:不断学习,保持好奇心。
这大概也是祝铭明能不断探索边界的原因之一。
事实上,他们所做的尝试都是在打破机器世界和物理世界之间的边界,为我们的感知重构一个更丰富、更超现实的世界。
在这个世界的各个角落,还有无数人夙夜匪懈、殚精竭虑,去探索自己的边界,突破那些既定规则。
正是在这种突破边界的努力之下,今天我们才能和机器说话,可以在海量的内容中瞬间获得自己最想要的东西,家中的电器可以认出我们的面孔,我们可以见识到远超人类棋手的人工智能棋手,拥有了比人类更准确地诊断病情的人工智能「放射科医生」,找到了快速试验新疫苗的人工智能算法,以及更多可以提升生活质量、拓展我们生命边界的事物。
也许有一天,这些人工智能还会帮助我们突破进化的藩篱,成为此刻的我们无法想象的新物种。谁敢说一定不会呢?
未来,遥远而未知。
正因为如此,它才令人着迷。
欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: