为了庆祝1024程序员节,科大讯飞办了一场AI语音“阅兵式”
两年前的10月24日,科大讯飞在安徽合肥举办了第一届开发者节。那天是刚刚退去夏季余热的南方少有的秋高气爽的日子,可能也是程序员在一年之中唯一得到特殊关怀的日子。但是讯飞的程序员没的休息,因为那天有他们一年之中最重要的一场大会,在这场大会上讯飞首次推出了“1024计划”。
不仅那个“程序员日”没的休息,以后的两年也是一样。2019年10月24日,这场大会第三次到来,“1024计划”也更新到了3.0版本。
2017年的“1024计划”成为了后来两年讯飞发展的一个主要方向:将AI与教引、生态、公益相结合,目的在于辅导、赋能开发者。2019年的3.0版本思路一样,只不过服务的对象更多了,能力也变强了。
科大讯飞轮值总裁胡郁介绍,教引、生态、公益这三个方向没变,但要“做大做强”,比如设立讯飞AI大学、AI开发者大赛;打造能力星云、iFLYOS & AIoT、解决方案三大生态产品矩阵;推广AI公益的方言保护计划、为助残应用提供免费AI技术服务等等。
关于“做大”,现在已经有了一些成绩:AI大学已拥有超过31万学员,讯飞开放平台已提供267项AI能力及方案;方言保护计划已吸引700万人参与,联合超过100家合作伙伴,覆盖10大方言区。
关于“做强”,则要复杂得多。
从硬件上来说,今年5月,科大讯飞一口气发布了五款硬件产品,包括翻译机、智能录音笔、转写机、
讯飞智能办公本 图片来源:讯飞官网
和学习机,能满足录音、转写、笔记、翻译等各种要求,语音通用识别率达到98%以上,中英混合情况下英文识别率达到90%以上。
从软件上来说,则是能够为教育、医疗、司法、车载等应用场景提供更多服务了,而且AloT操作系统iFLYOS也得到了升级,让AI能力接入更便捷。
另外,值得一提的是,本月被美国列入贸易管制黑名单的科大讯飞也开始做芯片了。今年的1024开发者节上,它宣布联合穹天科技共同推出家电专用语音芯片CSK400X系列。
“虽然我们科大讯飞不是做芯片出身的,但我们会将我们的核心技术与当前最主流的芯片进行合作。”胡郁说,“相信大家马上就可以领略到科大讯飞芯片+人工智能更加强大的威力。”
一些新的技术
一个男人走上台来,向观众问好,音响里却传出了女主持人的声音。这样一个小小的惊喜暂时地将很多睡意昏沉的人从满是专业术语的午后会场解救了出来。
带来这个惊喜的人是科大讯飞AI研究院常务副院长刘聪。他戴着一个“变声领夹”,可以用来模仿某个特定的人说话的音色,就像柯南的蝴蝶领带一样。这背后是讯飞的语音合成技术。
为了进一步展示这一技术,他展示了一段疑似罗振宇的语音,请观众猜测是机器合成还是真人录音——实际上是前半机器,后半真人。以36氪作者现场观摩的体验来看,确实难辨真假,而且听不出衔接痕迹。
其实高德地图的林志玲语音、郭德纲语音也都建立在这个技术之上,但刘聪此次所展示的“实时模拟特定人声功能”明显要精进得多。另外一个可能让你坐不住的“新闻”是,央视纪录片的专用配音员李易已经在六年前去世,但讯飞运用这一技术重现了他的声音,并用在了今年新一期的《创新中国》纪录片里。
如同人工智能吓到人类的其他几个时刻,这个技术的展示过程让人难忘。更让人难忘的是,刘聪宣布这一技术将会被开放给第三方开发者。
Google、微软和百度更早前已经纷纷推出了会模拟人声打电话的机器人,它们曾招来共同的疑问:这种技术会不会被用于诈骗或恶作剧?相比前辈,讯飞的新技能看起来似乎更危险。
刘聪解释说,讯飞会谨慎开放这一功能。“我们会选择可靠的to B的合作伙伴进行开放,以避免技术通过某些不合适的方式被利用。它必须要满足阳光健康、与人为善的价值。”
当然,也有一些不那么“吓人”的技能,比如讯飞机器阅读理解能力的进步。据刘聪介绍,体现在教育应用上,讯飞已经可以从原来的单科知识推荐,发展到数理化英的知识推荐,而且用户满意度达到90%。体现在医疗应用上,则是从辅助诊断常见病,发展到了罕见病、危重病,可覆盖900多个医种,并且在难度增加的情况下,准确率还能达到60%以上。
以及,讯飞不是那么核心的图像识别技术也有了进步。在本次大会的入口处,摆放了讯飞自研的“X光安检机”。据刘聪介绍,科大讯飞为X光安检图像的目标检测专门研发了一套新型检测技术,系统识别率可达90%,能够识别各类可疑液体、易燃易爆物品、各类刀具、枪支等29种、50多类违禁品。
两个新的平台
虽然程序员日程序员也要上班,但开发者节真的需要给开发者一些好处。今年开发者节上的好消息是,第三方开发者们可以在讯飞开放平台上接触到这些新技术了,现在能力星云上已经有200多种技能。
除此之外,科大讯飞对开放平台做了“人性化调整”,给开发者留了更多自由空间。“我知道有些开发者有技术情结,希望用自己的双手做出适用于自己场景的声音。所以我们现在也可以单独开放我们的音库并支持高精度的标注。”刘聪说,开发者可以基于标注的音库去用自己的算法,甚至找其他家的服务去实现自己的系统。
另外,科大讯飞推出了“归云平台”,让开发者可以“用简便的方式进行各种能力的组合”。
这是什么意思?刘聪解释说,大家都觉得翻译机的翻译速度比翻译软件好,是因为它在本地一共调用了三次能力:语音识别+机器人翻译+语音合成。而如果你在软件客户端上进行了这三次调用,时间成本就会大大提高。
未来在归云平台上,可以把三次调用所需的能力组合在一起,一次用一个统一接口就可以解决问题,也不用关心能力之间协议数据兼容的问题。
“换句话说,基于这样一个能力,只要你足够牛,你也是非常有希望能做出类似于语音翻译机这样的网红产品的。”刘聪说。
当然这里面也有一个问题——讯飞自家就在做To C的硬件产品,这对于与讯飞有竞争关系的开发者来说又是个心理障碍。
关于这种疑问,胡郁在答记者问时解释说,首先,科大讯飞的硬件产品有很大一部分是与海尔、华为等企业合作推出的,并不是直接面向消费者的;其次,顾客的需求时多样的,一个产品不能满足所有的用户需求,“讯飞就算是做垂直品类,也不可能把所有的垂直品类都做掉”。
“讯飞有自己的玩具,但我们也向其他的玩具开发者提供我们的核心技术,我们现在在寻求中间的交叉局面。”胡郁说。
最后,程序员的诉求很复杂,除了归云平台,还有飞云平台。
“我们针对一些有AI研发能力,或者有基础情结的开发者提供了另外一种需求。”刘聪说,有的开发者针对某个问题已经有自己的方案,但不具备隐形化和服务化的能力,飞云平台可以让这些开发者把他的能力“上传到我们的云里面,让我们的云计算平台去进行服务,托管分布式调度他们的能力,他只用关注自己的这样一些效果效率就可以了。”
归云和飞云平台都将在近期上线。
大会结束后不久,科大讯飞公布了新一期财报。公告显示,公司2019年1-9月实现营业收入65.73亿元,同比增长24.41%;归母净利润为3.74亿元,同比增长70.51%;归母扣非净利润为6981.43万元,同比增长183.49%;基本每股收益为0.18元,同比增长63.64%。
这个增速在头部人工智能企业中位居前列。公告称,公司前三季度业绩大幅增长,主要原因系人工智能产业持续发展。2019年前三季度,科大讯飞开放平台业务以及涉及到民生支出的教育、医疗等行业保持了较快增长。
题图/科大讯飞
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: