开源平台Cloudera暴跌40%,Hadoop不行了吗?
Tom Reilly, chief executive officer of Cloudera Inc.
文|郭华
今年6月6日,Hadoop商业公司Cloudera突然暴跌了40%,一时间引发了大家激烈的讨论,在这些讨论之中,最具代表性的观点便是Cloudera的暴跌代表着Hadoop的陨落。
但我认为Cloudera的暴跌与Hadoop无关。
健康的Hadoop
Hadoop现在还是非常健康的。
图1 Hadoop大数据分析市场情况
首先,我们看一下Hadoop的市场情况,根据statista的测算,2019年全球Hadoop和大数据市场规模约在340亿美金左右,且5年复合年增长率高达28.5%----从这点看,Hadoop没有衰落的迹象。
其次,我们再看一下现在最火的云计算厂商的情况,打开他们的产品页,我们看一看对大数据怎么想:
图2 四大云厂商Hadoop情况
从图2可以看到,不管是Amazon的EMR、谷歌的Dataproc还是阿里云的E- MapReduce和Azure的HDInsight,四大云厂商无一例外都选择了Hadoop,而且均占据了其产品页头部的位置,这足以说明Hadoop在云厂商心目中的地位 ----从这点看,Hadoop也没有衰落的迹象。
然后,我们再看一下Hadoop本身。
图3 Hadoop生态 from oreilly.com
Hadoop从2006年发布以来,不仅点燃了大数据的热火,自身也在热火中逐渐发展壮大,从一个软件变成了一个生态。在HDFS和YARN基础上长出来一系列大名鼎鼎的软件,这里边既有老牌的Hive和Hbase,也有热度正在攀升的Spark和Flink,总体接近四十多个,从实践中看,Hadoop仍然是企业大数据处理系统最佳甚至唯一的选择 ----从这点看,Hadoop也没有衰落的迹象。
最后,我们再来看看招聘要求,就拿中国最顶尖的这部分公司为例,比如百度、阿里、腾讯、头条、美团、滴滴、网易等,这些公司对大数据工程师的要求第一点便是Hadoop。看完这些JD,毫不夸张的说,如果你是候选人而只让你选一门技术做准备,那一定是Hadoop ----从这点看,Hadoop也没有衰落的迹象。
图4 各大公司招聘要求
说Hadoop衰落的人提了一些论点,其中最有价值的便是S3正在动摇Hadoop的HDFS,K8S正在动摇Hadoop的YARN。HDFS和YARN是Hadoop的根基,根基受到挑战,Hadoop将会沦陷。
但我们看一下Hadoop的历史就会发现它从来不缺挑战,比如Spark,当时号称比Hadoop快一百倍,后来仍然成了Hadoop生态中的一部分,跟Hadoop和谐共生。而且当时Hadoop才出来没多久,考虑到已经在各大公司部署的庞大Hadoop集群,现在看到K8S和S3就说Hadoop要衰亡,这就有点为时过早了。
Cloudera怎么了?
如果说Hadoop没问题,那Cloudera暴跌是怎么回事呢?
我们先看这次暴跌发生的时间点。
这次暴跌发生在Cloudera 现任 CEO Reilly宣布辞职,并公布了FY20 的第一季度财报之后。
Cloudera在财报里表示其营收略低于预期(预期$188M,完成$187M),并且也调低了FY20营收预期,从$835M - $855M降到了$745M - $765M,对应的年增长降到了0%-10%。
有人说这种增长率显然对一个新技术公司来说太低了,是这次暴跌的主要原因。
但我认为这并不充分。
Cloudera在今年1月的时候刚刚完成了与Hortonworks的合并,这种合并必然需要一段时间的调整期,所以财务情况跟预期略有出入也不是特别意外。
那是不是说这次暴跌是黑天鹅事件,Cloudera本身是没问题的吗?
当然不是,Cloudera有问题,而且很大。
它既有远虑,也有近忧。
先说近忧。
前面提到Cloudera和Hortonworks在今年1月份进行了合并(合并后还叫Cloudera),而两者都是Hadoop商业服务公司,各自在Hadoop基础上都有了自己的产品线,Cloudera的产品叫CDH,Hortonworks的产品叫HDP。
所以合并之后第一个问题便是新公司的产品策略是什么。
图5 Cloudera产品策略
Cloudera CPO Arun Murthy 是这样说的:Cloudera会在2022年前继续支持CDH和HDP两条产品线,同时也正在开发新的整合产品 ----CDP(Cloudera Data Platform)。CDP分两个版本,第一版基于CDH6和HDP3,目标是兼容两者现有作业,并做初步整合,算是一个beta版,之后的第二版才是真正的统一版,它将在第一版的基础上把CDH和HDP两条产品线里最好的部分挑选出来并进行整合,给客户更超值的体验。
Cloudera虽然没有明确给出CDP的时间点,但Arun简洁的线框图似乎在极力暗示着时间是一年一版。
但事实远不像画线框图这么简单,CDP除了时间之外,还存在着产品形态的不确定性。
因为CDH和HDP里存在着互斥的部分,只能二选一,比如管理部分,CDH用的自己开发的管理工具,HDP用的是开源的Ambari;再比如安全部分,CDH用的是Ranger而HDP用的是Sentry。所以到底选哪个,怎么选,选完后原来的客户要怎么办,这些都不确定。
不仅如此,CDH和CDP现在又在分别整合对方,比如CDH整合了HDP里的实时处理部分HDF,HDP也整合了CDH的数据科学组件CDSW,这更让人看不懂。
所以Cloudera似乎是迷失在了短期需求与远期规划的三条线路中,还没找到一个真正的收敛方案。
那就更不要说它的客户了。
对于现有客户来说,他们不知道是该在原版本上继续升级还是等待整合后的统一版本:原版本升级虽然简单,但已经明确知道这会在两三年时间内被废弃,到时候还得做迁移,等整合版本吧,又不知道什么时候才能使用。总之是不管哪个决策都不够理想,所以只能再等等看看,这点在第一季度的财报电话会议上也得到了现任CEO Reilly的承认,他表示Cloudera现有客户似乎都因为这个的问题推迟了续费。
而对新用户来讲,更是不知道该选CDH还是HDP还是再等等选CDP。
打个不恰当的比方说,Cloudera让自己的客户陷入了驴子吃草的困境之中,这无异于在给竞争对手创造机会。
这个对手不是同做Hadoop商业服务的MapR,而是全球公共云厂商。
这便是Cloudera的远虑。
现在已经没必要讨论云计算是不是趋势的问题了,大企业都在IT上云,云计算已经成了规律,那么自然而然的,作为IT一部分的大数据也就被云厂商顺手拿走了。
以AWS为例,根据分析师Rishi Jaluria的预测,单单AWS上的EMR(托管的Hadoop)和Redshift(类似Hadoop+Hive的数仓解决方案)在2018年的营收之和就接近$700M,几乎跟合并后的Cloudera总收入相当。如果再考虑其他大数据产品,比如营收高达$1.6B的S3(对标Hadoop的HDFS),那么AWS上大数据收入将是Cloudera的数倍。
更不要说加上Azure、Google Cloud和阿里云的部分了。
公共云厂商正在吃掉一切。
而更可怕的是这根本不是竞争。比如前边虽然提到了有人说S3正在挑战Hadoop的HDFS,但这种讨论只在云的背景下有意义,因为S3不是软件而是服务,如果你在本地自建一个大数据集群,那无论如何S3都威胁不到Hadoop。可一旦企业上了云,云厂商便掌握了主动权,他有各种机会引导客户去使用其自研的产品。
这才是真正让Cloudera头疼的事情。
Cloudera的反击
Cloudera对这一切非常清楚,他也给出了自己的对策,这就是前边提到的CDP。
CDP,全称叫Cloudera Data Platform,是一个混合云/多云的大数据平台,既支持在本地或私有云上部署,也支持在多个公共云上部署---- 虽然时间还没确定,但根据Cloudera的描述,CDP将会支持AWS、Azure、Google Cloud、IBM Cloud和Oracle,几乎覆盖了美国所有云厂商。
而Cloudera的逻辑是,企业上云已经不可避免,但企业同时想要选择权,这便是多云/混合云的机会,而且比起某个云厂商来说,第三方多云平台会更具中立性,这便是CDP的机会。
从某种程度上来说,Cloudera的逻辑和IBM收购Redhat的Openshift是一致的。
所以CDP是Cloudera现在最关键的一步,如果成功的话,它不仅统一了Cloudera和Hortonworks的产品线,还能让Cloudera在云计算的浪潮之中找到自己的位置,可谓一箭双雕,既解了远虑又消了近忧。
至于Cloudera的CDP会不会成功,我想现在谁都没结论,但有一点是肯定的,那就是在公共云厂商正在吃掉世界的现在,它的问题值得所有技术公司认真考虑。
这是云厂商之间的战争,也是技术公司生存的环境。(本文首发钛媒体)
【钛媒体作者介绍:郭华,微信kakuka1988】
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: