第四范式AutoML算法炼精术:技术集群、高维度、多场景
"y=f(x)。"第四范式云业务负责人王敏用函数的抽象表示向钛媒体描绘了她眼中的AI。
"y"代表"预测目标","x"代表"影响因素",抽象函数关系"F"代表的"AI模型",而AutoML(自动机器学习)则是第四范式的杀手锏----"通过AutoML自动的将f(AI模型)制作出来。"
举个简单的例子,若将目标人群三年之后患糖尿病的概率作为业务预测的最终目标,那么此时的X则演进为目标人群的体检相关数据,而AutoML技术通过三个环节:对大量的数据X进行自动预处理(数据自动清洗、线性分型技术);自动特征处理以及自动算法选择和配置,最终得到预测目标出现的概率值。
而据此与瑞金医院所推出的瑞宁知糖(一款预测糖尿病患病率的产品),在糖尿病预测的准确性上较基于临床标准的预测提升了3倍左右,这也第四范式在AI落地真实场景的成功实践。
人工智能最早于1956年的Dartmouth 学会上提出,但由于相关基础理论研究结果的匮乏、硬件与软件的落后以及实际落地场景不足,让AI像沉寂在海底的活火山亟待喷发。
根据《美国2019:国家人工智能研发战略计划》披露:"当前AI技术的一个关键缺口是缺乏可预测性能的方法。"这份计划在指明当下AI的天花板的同时,也从侧面暗示了当下AI的发展已正式步入到一个新的关键时期,即市场真实场景驱动之下的方法论构造成熟时期。从辩证思维逻辑来看,缺乏"可预测性能的方法"是AI企业的天花板,也是突破口。诚然,这也是第四范式的护城河所在。
溯源第四范式AutoML
AI应用规模化和普世化的前提是以ROI(投资回报比)最优为目标的低门槛AI技术,核心在于AI智能化和自动化,而当下的关键技术则是AutoML(被列为MIT2018十大突破性技术)。简单的说,就是要让机器取代人工专家完成建模、自动调参的工作,进而让整个机器学习过程更加自动化。
往深层次更近一步分析你会发现这是一个极为宏大的愿景,即"让机器从业务中自主发现规律,进而服务企业的增长和创新。"无独有偶,相关人工智能业内专业人士对钛媒体表示,"第四范式走的不是普通的道路,而是想做AI中的AI,即通过自主创建一个AI引擎,基于引擎可以外延构建更多AI解决方案与应用。"
与此同时,这也是一条全球性的赛道。
亚马逊、谷歌、微软以及百度都在此押注。值得一提的是,第四范式自2015年年初起便深耕AutoML,较于谷歌2018年正式发布AutoML领先了三年有余。并在三年时间内先后将AutoML应用于金融、银行、零售、保险、证券、医疗、能源以及媒体等众多领域,实现了AI的多场景落地。
以AI落地金融为例,当具体应用于某国有银行线上的B2C的交易欺诈防控时,第四范式首先对银行所提供的大量用户的流水数据进行数据预处理以及特征扩充,包括卡的信息、商户信息、用户信息等,进而通过构建亿级别维度的高维度机器学习模型进行深度训练,最终通过AI对可疑交易案宗进行排序。
而在此之后的直接益处是较专家规则提升了近316%,达到了83%的防控精准性,与此同时该工具比专家规则多识别欺诈交易58.8%,同时也减少了将近30%审核成本。从某种程度上来说,AI进一步解放了专家的生产力。目前,第四范式的金融机构资产总规模超过50万亿,头部金融客户占有率超过70%。
这一效果在"AI+媒体"上的融合更为明显。众所周知,内容分发决定了媒体流量和利益的分配,于此之下,个性化推荐则成为媒体价值实现的关键所在。
"先荐"是第四范式基于深度学习技术研发的一套集内容上传、内容管理、内容分发、推荐干预以及前端渲染于一体的一站式推荐服务可视化平台,支持PC、WAP、APP全平台接入。目前,第四范式已服务超过1000个客户,生产出超过2000个推荐场景。通过机器学习的训练,国内第三大官方媒体环球网点击率提升了近5倍,而国内最大的单机游戏媒体游民星空点击率更是达到了19倍的提升,在收益增长方面国内最大程序员社区CSDN在应用之后广告收入提升了1.5倍。
AutoML的价值在哪儿?
企业应用AI的门槛较高,首当其冲的便是认知(不知道如何构建AI能力,什么是关键的成功因素)和操作门槛(建模+业务的复合型人才的缺失,开源机器学习框架使用门槛、维护成本过高),这也是AI所一直为人诟病的"过于黑盒化"。
在这一点上,第四范式的AutoML只需 "收集行为数据、收集反馈数据、模型训练、模型应用"4步,无需深入理解算法原理和技术细节,即可实现全流程、端到端的AI应用构建。
"过去我们出去跟客户谈AI都会去谈建模,现在有了AutoML之后,我们就不用再纠结 F(AI模型)里面的东西,而是去谈Y(预测目标)与X(影响因素)的事,这样更有助于降低客户对AI的认知门槛,从而更聚焦于实际的业务对接层面。"第四范式云业务负责人王敏告诉钛媒体。
除此之外,AutoML的应用价值还体现在成本节省维度上。
国内某大数据广告公司的CTR业务,采用第四范式AutoML上线AI总耗时两周,远远低于目前AI应用上线半年的交付周期,且实际效果与某知名云计算公司AI算法专家建模效果保持一致。此外,该业务上线后,仅用两台节点就负载亿级日均PV量。
于这一方面,第四范式硬件业务总经理蔡斯扬对钛媒体表示,有一部分原因是缘于此前第四范式发布的SageOne是为AutoML等AI专用算法而设计的软硬一体产品,采用第二代英特尔®至强®可扩展处理器,该单颗处理器拥有20个核心、40线程,使用英特尔®睿频加速技术2.0,在保持高核数的同时将频率锁定至2.8GHz,在保证AutoML在数据处理、特征工程、模型训练等各环节的最高性能同时,也能充分发挥AutoML算法DE潜在能力。而通过借助自主研发的AI训练加速卡4Paradigm ATX800内置的无损数据压缩和FlashGBM加速器,对AutoML算法进行了深度优化,从而进一步提升高维特征工程处理以及模型训练的性能。
升维AI炼"精"术,算法和场景的革命
算法的匮乏、IAAS(基础设施即服务)层的不足让当下AI公司被迫降维,产品设计逻辑仍停留在表层无法触及核心层,但全球科技竞争的"二八法则"又逼迫着科技公司必须逆流而上,对于AI领域的玩家来说,"精炼"和"高效"的技术则是企业的生力之源。
截至目前,第四范式已自主研发了传统机器学习、深度学习等多方向的自动化技术,囊括了自动特征组合(FeatureGo)、模型自带自动化特征的线性分形分类器、自动时序树模型工具HE- TreeNe、自动时序特征(TemporalGo)、自动深度稀疏网络DSN(Deep Sparse Network)、Auto- SSL(自动半监督学习)、AutoCV、AutoNLP、多保真度优化等多项AutoML支撑技术,而丰富的技术支撑让第四范式在AutoML上游刃有余。可以预测到的是,新技术浪潮在未来的几年不再由单一技术引爆,"技术集群"将开启巨大的红利。
"7nm级别芯片从科研角度上来看已经接近硅作为半导体材料的物理极限了,某种意义上来说,摩尔定律已然失效,未来的十年将是计算机体系架构的黄金时代,你会发现有各种新的架构和芯片,但瞄准的实质方向其实就是AI和未来的边缘计算端,所以我们认为时代将走入一个应用或者场景定义,或者是算法定义的一个时代。"第四范式硬件业务总经理蔡斯扬对钛媒体告诉钛媒体。
而这段话的背后逻辑,在今年的IDC"CXO卓越圈"活动上第四范式创始人兼CEO戴文渊发言上也有迹可循---- 随着人工智能规模化落地,企业在制定AI转型路线时可考虑'1+N'的应用场景模式:'1'是结合公司核心业务,把1个或几个对业务影响最大的场景做到极致,属于纵向维度;'N'是用最高的效率规模化落地尽可能多的应用场景,使场景的总体价值最大化,属于横向维度。
对于"1"这类标杆型应用来说,极致的效果是其所追求的,而极致的效果必然要求AI系统的"高配置"。
传统意义上的高维模型,往往局限在万级别的维度以下,而第四范式开发的高维机器学习引擎最高可支持到万亿(10^12)维度,通过极致的机器算力,进而实现远超传统几个数量级的精准性。
那么,什么是超高维?
举个简单的例子,超高维意味着将一个用于训练的10T大小原始数据通过超高维离散化和特征增强之后这个模型的原始数据量变成100T甚至200个T。在面对如此庞大的数据量时往往需要100台的服务器去连通,在训练的时候还需要去"三次握手"、"数据流转",往往会导致通信链路堵塞。
于此之下,一个负责"疏通"的软件通信协议显得至关重要,"协议的设计逻辑是基于深度学习和机器学习,我怎么扫每一行数,每个节点之间通讯的机制是什么,这个我们很清楚,因为这种算法是我们自己从第一行开始写的,我们很清楚他是怎么工作,说的简单点就是通过一个通讯协议,从而让协议能够匹配到整个算法训练通讯的机制,这是一个很重要的方向。"第四范式硬件业务总经理蔡斯扬对钛媒体补充说明到。
除此之外,第四范式对业务数据处理之后的特征值组合也是一大亮点。
第四范式云业务负责人王敏告诉钛媒体,"我们不会主动去删这些特征值,而是尽可能的多。"这恰好让法国数学家拉普拉斯的话在AI分析领域得到充分的应用,"只要拥有足够多的数据,就可以按照机械定律推出未来世界的全部面貌。"
在王敏具体操作AutoML时,钛媒体记者发现可以透过UI界面看到这些组合特征值对整个预测结果的关联性,透过分析这些特征值与结果的关联性的大小可以反过来分析哪些特征的组合或者单个特征值的影响程度大,从而进一步分析出哪些原始数据是有用的,最终反馈给用户达到一个互动的正向效果。
其次是实时度和数据准确度上的要求,随着服务线上化以及对极致体验的要求,对业务的实时响应要求越来越高。尤其在面对高维模型应用的时候。
在过去,实时度、准确度和高维如同一枚硬币的正反面,能做到实时和准确的系统,往往做不到高维。为此,第四范式自主研发了RTiDB实时时序数据库,根据"特征+事件"原数据库管理的核心逻辑,在保证了特征一致性和时间戳正确的同时,也实现万亿维度模型毫秒级响应的精准决策。
最后一步则是闭环,即机器的自学习能力。
要知道任何系统都不可能是完美的,都有犯错的可能性。从某种意义上来说,我们怕的不是AI犯错误,而是AI持续不断地犯同样的错误,此时一个持续利用业务应用过程中的反馈数据进行系统自我更新与优化的能力则显得至关重要,这也是未来AI系统极其重要的核心能力。纵观整个AutoML,它的最大优势在于冷启动后的一个高度能力的集成,更倾向于一种AI端到端的能力,将场景、算法、数据及算力4个方面融为一体,"先知SageOne Appliance"也正因此应运而生。
第四范式联合创始人、首席架构师胡时伟对钛媒体表示,"SageOne继承了之前先知平台的优势,但是由于我们是软硬一体的设计,可以做到纯软做不到的事情,比如硬件和软件一起加速的设计,我们可以在同样投入的基础上可以再提升十倍乃至更多的性能,可以把这个维度再进一步扩大,这个是原先纯软件的方案做不到的。"
"N"所追求的是规模化落地,眼下很多企业都面临着"全面AI改造",在面对如此庞大数量级的场景时,如果每个都做到极致,代价和效率往往是不够的。因此,实现规模化落地的前提则在于建立一个统一的方法论。为此,第四范式建立了一个以"库伯学习圈"理论为基础的AI方法论,并基于此构建了"先知"平台,从而将AI开发分成"行为数据采集、反馈数据采集、模型训练以及模型应用的四个标准步,最终让更多人用统一方法规模化生产AI。
回归场景驱动,从实际出发
翻看第四范式的产品手册你会发现醒目的几个英文单词,"AI For Everyone(给所有人的人工智能)",这也正是第四范式的愿景所在。眼下的AI的格局变了,不再是AI方案提供商的供给侧刺激,而是由多元场景驱动的新局势。
AI的热度近年来一直居高不下,包括各种智能的体验层出不穷;但大家也有一些困惑,AI到底能给自己企业的经营管理带来什么价值?
正如第四范式创始人兼CEO戴文渊所述,有一些企业并没有理解AI技术的本质,未找到与自身基因匹配的AI,因而出现了一些浮在表面的AI需求或者是"伪需求"。其实AI是一种从数据中发现规律进行决策的通用能力,企业不需要纠结AI技术能够解决什么问题,而是转而更聚焦于自身业务,需要通过AI提升什么业务价值与目标。
让技术本身不再是企业利用AI的障碍,这也是第四范式算法与产品设计的思路之一。对于第四范式来说,下一步的关键就在于AI将如何规模化落地于更多行业;而对于那些意欲成为巨头的AI企业来说,眼下要思考的问题是产品的设计逻辑是否有绝对的场景来源?在泡沫层出不穷的年代,产品能否切实满足场景所需成为AI公司存活以及壮大与否的根源性逻辑。 (本文首发钛媒体,作者/桑明强)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: