对话「追一科技」:推出中文NL2SQL数据库驱动底层技术进步,期待NLP将迎技术大年
今日,由「追一科技」主办的首届中文NL2SQL挑战赛结束。据了解,本次1457支参赛队伍中,院校和企业参与者各半:其中学生及科研人员占比48%,企业技术员工占比52%。学生参赛队伍来自众多知名院校,如北京大学、清华大学、复旦大学、上海交通大学、南京大学等、企业参与者则来自中国移动、平安集团、搜狗等众多企业的技术人员。
36氪对话「追一科技」,在赛后一同探讨了NL2SQL的研究新方向和中国NLP的发展趋势。36氪内容整理如下。
NL2SQL:自然语言处理技术的新兴研究方向
在CUI(Conversation User Interface)的大背景下,如何通过自然语言自由地查询数据库中的目标数据成为了学界内新兴的研究热点。 Natural Language to SQL( NL2SQL)即旨在将人类的自然语言自动转化为相应的SQL语句(Structured Query Language结构化查询语言),使算法能与数据库直接交互、并返回交互的结果,并服务于 子查询预测、SQLNet的替代方案 的研究。NL2SQL作为新兴研究领域,以自然语义理解(NL)为技术底层,将机器学习(ML)和深度学习(DL)应用于语义理解的广泛讨论。这一方向也被认为是自然语义理解在商业场景应用的重要支撑。在NLP子任务指标逐步被攻克的当下,NL2SQL虽关注较少,却有着相比于其它任务更高的实际应用价值。
NL2SQL原始步骤示意图
而从NLP的商业化上看,NL2SQL更是一个 适配商业应用场景,推动NLP产品化和工业化的创新方向: 在中国的企业实操场景中,商业数据多以表格形式储存,数据的查找、分析、处理多需要通过数据库达成,通过SQL进行调用。而NL2SQL正能对企业数据库进行快速适配,简便数据调取和文本分析流程,帮助企业自由地和数据库进行交互,有效地激活企业数据库知识价值。实际2B场景中,会使用大量数据库的企业客户多为 金融保险、投融资企业和大型公司 等高净值用户,更为技术落地后的产品盈利提供了更强的支持。
“我们认为,NL2SQL正是NLP一个新兴但非常有潜力的研究领域。 从AI技术的发展规律来看,一个技术如果有专门的技术挑战赛,会非常快地加速这个技术的产业化落地 ,比如视觉的imagenet、人脸识别,NLP(自然语言处理)早期的分词、机器翻译,以及近期的阅读理解等领域,一些公开测试集或者挑战赛出现的时间点,恰好都是 这个技术从论文走上产业化的临界点 。很好的说明了技术比赛推动技术成熟的作用”。「追一科技」联合创始人兼CTO刘云峰如此介绍举办首届NL2SQL大赛的目的。
自6月24日比赛启动以来,共有1457支队伍、1630名选手报名参赛。据比赛公开数据,在为期两个月的初步比赛中,数据集准确率持续刷新比赛的新记录。在8月12日的预赛结束时,列表总得分达到 0.89(89%) ,接近行业领先数据集WikiSQL的 91.8% 。
决赛现场
****
厚积薄发的NLP?
在本次比赛中,「追一科技」还发布了 首个大规模中文NL2SQL数据集 。数据主要覆盖 金融领域与通用领域 ,包括4,870张表格数据、49,752条标注数据。 对比国外的WikiSQL、Spider、WikiTableQuestions等大规模英文NL2SQL数据集,该数据集在兼顾数据规模的同时,引入了不一样的技术难点,例如 口语化表达、结合表格内容、命名实体链接、更复杂的SQL语法 等挑战,难度更高的同时,也更贴近于真实应用场景。
- NLP商业化落地的重要支撑是底层技术,发布数据集目的是进一步驱动国内NLP底层算法的研究。
「追一科技」联合创始人兼CTO刘云峰向36氪介绍。经历2017-2018年NLP(自然语言处理)基础能力的建设后, 业界算法模型的完善、算力的提升 、数据集的丰富 正在推动了NLP技术整体向好,NLP极有可能在2019年迎来 技术大年 ,实现技术成果的小爆发。
但在实际应用中,当前的NLP技术落地仍然遵循“端对端”的形式,非端对端的创新仍然有赖于更为紧密的技术结合和更加稳定的算法支持。在头部公司竞速重要算法榜单的背后,如NL2SQL等子任务的算法迭代仍然相当匮乏。 在中国,NLP商业化落地的发展仍然有赖于底层技术的磨砺。
- 围绕NLP展开的学术研究和产学研结合,正在为NLP企业打开技术的天花板。
在「追一科技」联合创始人兼CTO刘云峰看来,NLP企业的格局是明显的:技术研发提高了企业的想象空间;而对应产品的商业化水平,则构建了NLP企业的下限;联通其间的则是 NLP企业的 产品化能力 。从理论技术到产品化和产品化,考验着企业 产品、服务耗时、稳定性、准确性 等多重问题——企业需要的是可复制化、大规模化的产品和服务。
此外,企业客户还需要“ 配置即定制 ”,即通过功能和产品的配置组合,完善AI PaaS的整体建设,高效完成企业的需求任务。
在企业场景中,「追一科技」认为:NLP技术驱动的“ 数字员工 ”能将NLP能演化为更具“效力”的形式,即“支持智能协作、变革流程,并实现自我教育和自我进化”。作为企业管理自动化解决方案,与强调“自动化输入”的RPA不同,“数字员工“更强调HCI:强调数字员工在企业中更强的“交互性输出”,使得机器人不仅具备“自我输出能力”,还能在企业中培训和监督人类员工。
- “未来的AI公司应该是全栈型的AI公司”
谈及中国NLP企业的发展,刘云峰表示前途乐观:一方面,NLP应用的碎片性在经过整合后将为其落地应用提供了多种可能,NLP企业将逐渐拓展至拥有 全栈NLP能力 ;另一方面,在HCI(人机交互)的人工智能大趋势中,NLP的多模态融合在未来的“万物互联”趋势下有更好的发展潜力。通过多模态交互,NLP企业能通过多种单点技术达成组合效应,促进技术的商业化。结合计算机视觉、语音实时交互,全栈NLP能实现更多的商业化场景落地。
关于
「追一科技」成立于2016年3月,公司主攻深度学习和自然语言处理,通过将AI交互能力与企业服务场景深度结合,为企业提供整体智能化解决方案和“数字员工”。3年来,「追一科技」共获得招商局资本、创新工场、晨兴资本、GGV等投资,融资共计7000万美元,曾在2018CMRC中文阅读理解竞赛、CCF-2019LIC知识驱动对话比赛等NLP技术比赛中崭获冠军,2019年9月打破CoQA多轮对话阅读理解纪录,位列榜单第一。连续入选机器之心评选全球30大AI创业公司、工信部中国产业创新榜“最具投资价值50强”。
观点
对于当前的NLP应用来说,缺乏相对独立且足够大的应用场景和技术相对后发是硬伤,但正因为NLP领域尚待突破,这个领域复制之前平台创业的方式,即 从学术到商业的路线的可能性仍在 。而NLP在企服场景内的“百亿RPA”,已展现了NLP商业化落地的巨大潜力。在CV企业集体估值过高的当下, 一直“不温不火 ”的NLP未来,似乎更值得期待 。
2B场景中,36氪持续关注多家企业:智能云客服平台提供商「智齿科技」曾于2018年,获得当时智能云客服市场最大单笔融资:1.5亿人民币B+轮融资。同年,「竹间智能」获得3000万美金B轮融资。「助理来也」曾于2017年完成千万美元B轮融资,推行业智能助理“吾来”。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: