被仰望和遗忘过的 Cloudera 是否能王者归来?

2020-04-12 10:10


先想象这样一个场景——

你家有个天台,上面什么都没有。

你一筐筐的把土背上去,铺了一小块地,然后又挑水施肥,种了几垄黄瓜、几棵西红柿和一小簇青菜。

你照顾的很用心,他们长势也很不错,红红绿绿,晨曦中沾满露水,散发出泥土的气息。

然后等到秋天,你兴冲冲跑上天台,结果门一开,噗的惊飞一片麻雀,噗噗啦啦之后只见黄瓜断了,西红柿也满是洞,他们绿的红的汁,滴在被爪子踩的不成样子的青菜里,一片狼藉。

而且这还是个温暖又明媚的午后。

于是你闻着别处的稻香,在金黄的秋风里,感到一阵凄凉。

——这时你再看 Cloudera 的故事,大概才能感同身受。

01 被仰望的

Cloudera 的故事要从 Hadoop 开始说,而说 Hadoop 就离不开 Doug Cutting。

Doug Cutting 现在是 Apache 基金会的主席,标准的大神。在我心目中,他和谷歌 AI 负责人 Jeff Dean、Linux 之父 Linus 并称三大天王,高山仰止,令我自惭形秽,最终放弃编程。

2004 年,Doug Cutting 正在捣鼓 Nutch,Nutch 是一个开源搜索引擎,关于它和 Lucene 的故事又是一个传奇,可以再开一篇单独讲。总之,Doug Cutting 碰到了一些大规模索引和分布式计算的问题,恰好这时看到谷歌发表的两篇论文里有相似场景及解决方案。仔细研究之后,他觉得非常有道理,于是很快就把论文里的技术实现了,包括一个分布式计算框架 MapReduce 和一个分布式存储系统 HDFS,然后放进了自己的 Nutch 里。

2006 年,Doug Cutting 预感到这种数据处理技术有着更大的潜力,便把 MapReduce 和 HDFS 从 Nutch 中独立出来,合成一个后开源了,取名为 Hadoop。那会他儿子刚好两岁,不大会讲话,总管自己的玩具象叫 Hadopp,Doug Cutting 灵机一动,便把这个名字拿了过来。

同年,为了进一步发展 Hadoop,Doug Cutting 决定加入互联网公司里最大的雅虎。 

大概他也没想到,大数据时代的序幕就这样被拉开了。 

在雅虎,Hadoop 的集群规模很快过千,Doug Cutting 也认识了雅虎副总裁 Amr Awadallah。

为了对抗日渐崛起的谷歌,Amr 当时正在研究如何让雅虎搜索更智能,也碰到很多性能、成本与弹性的问题。在 Doug Cutting 的建议下,他开始尝试 Hadoop。在随后的两年里,Amr 基于 Hadoop 改造了之前的数据处理系统,结果可以说是惊人的好——完成相同的工作,新系统成本不过是之前的十分一,更重要的,他们还能做之前根本无法想象的事情,比如全量分析以 PB 记的数据。

这让 Amr 大为惊喜,他进一步想,这些问题应该不止雅虎会碰到,Hadoop 这种革命性的数据处理能力里蕴含着巨大商机。于是他萌生了一种想法,创业。这并不是 Amr 的第一次创业,实际上他在很早之前就创立了一家叫做 VivaSmart 的公司,然后 2000 年公司被雅虎收购,他才随之加入雅虎。

Amr 召集起几个志同道合的人,包括两位分别来自谷歌和 Facebook 的工程师和一位来自 Oracle 的经理人 Mike Olson,很快在硅谷成立了一家公司,自己担任 CTO。 

公司的名字叫 Cloudera,CEO 是 Mike Olson。

Mike Olson 何许人也?其实他和 Amr 一样,也是自己的公司被收购后加入大公司的。在 Oracle 之前,他曾是 Sleepycat 的 CEO,而在 Sleepycat 之前,他又参与过 IIIustra 的创业。这两家都是在开源软件上创业的商业公司,Sleepycat 基于 Berkeley DB,IIIustra 基于 PostgreSQL。这几乎和他们要做的 Cloudera 一模一样。 

那时是 2008 年,Hadoop 正以燎原之势蔓延,不仅席卷了硅谷,也燃烧到了大洋彼岸的淘宝和百度等,于是很快就成了 Apache 的顶级项目。

一年后,Doug Cutting 加入 Cloudera,职位是首席架构师,而作为 Hadoop 的创始人,他也很快被选为 Apache 基金会主席。 

天时、地利、人和,独角兽的羽翼鼓涨满满,只等风来。

 

2009 年,Cloudera 拿到了 500 万美金的第一笔投资,2011 年,拿到了 4000 万美金的第二笔,三年之后,它又拿到了高达 9 亿美金的第三笔。

如果那时你搜索 “Hadoop is”,输入栏会自动补齐 “future”。

我记得那时我大学快毕业。有次看到班里一个同学正坐在电脑前贱兮兮的笑,我问他在干啥,他说在改简历,我更加好奇便凑了过去,只见他正把一段网上复制的内容贴到“技能”那一栏里去。我不解,他咔咔使劲按了几下 Control+S 后嘻嘻道,现在流行云计算,只要描述里出现 Hadoop,肯定能过简历关。 

而且经过实践,这是真的。Hadoop 受欢迎的夸张程度,可见一斑。

另外,估计那会大家都分不清什么是云计算哪个是大数据,不仅我分不清,你看阿里云早期的飞天系统,其实也是一个大数据处理工具,而且可能 Cloudera 也分不清,不然怎么他一个搞 Hadoop 的公司,起名叫 Cloudera 呢?

这边 Hadoop 野蛮生长,那边 Cloudera 合纵连横,先是和 Oracle 达成战略合作,接着戴尔、Intel、埃森哲、德勤、MasterCard、SAP、TeraData、微软等也纷纷入局。 

所有人都关注着它,生怕错过什么。

2013 年的时候,Mike Olson 信心十足的写下了《The Cloudera Model》一文,表示 Cloudera 已经找到了 Hadoop 上成功的商业模式。

那时的 Cloudera,可以说是大数据领域最耀眼的星。2015 年华尔街日报做了一个独角兽排名,它是唯一上榜的大数据公司,排名 21,比大众点评还高。 

2017 年,Cloudera 成功上市。 

02 被遗忘的 

随着时间发展,Hadoop 的概念逐渐泛化。一开始只有 HDFS 和 Mapreduce,然后是一个以 HDFS 和 YARN 为基础的平台,再之后是一个包含 Spark、Hive、Hbase 等几十个项目和子项目的生态,最后,甚至又带上了以 Hadoop 为基础的商业公司,如 Cloudera、Hortonworks、MapR 等。

这种泛化有个坏处,那就是一旦出现负面新闻,大家往往分不清该怪谁。

比如作为一种技术,Hadoop 肯定有其时效性。就像 Mapreduce,虽然计算能力强大,但一切都是先 Map 再 Reduce 的抽象程度实在太粗鲁,以至于理念上很快就被 Spark、Flink 等这种更先进的技术打败了。与之相似的,还有 HDFS 和 YARN,从技术上说,前者不如云存储方便,后者不如 K8S 灵活,都有被取代的风险。

于是有人便开始宣称 Hadoop 已死,然后又说,因为 Hadoop 已死,Cloudera 也不行了。典型的用狭义概念做总结,用广义概念做推导,就像偶尔看到汽车超过了一辆绿皮车,就立马得出铁路运输已死,公路运输是未来一样。

然而这种暴力论断却非常有市场。

尤其是 2019 年,这年 Hadoop 三个主要的独立供应商过的都不大好。MapR 裁员,苦寻几个月金主后卖给了 HPE。Cloudera 合并了 Hortonworks,合并后 Q1 财报略不及预期,然后股价暴跌,CEO 离职。往日的 Hadoop 三巨头,似乎已是英雄末路。 

这时不少人纷纷站了出来,用 MapR 的问题论断 Cloudera,表示它将不出所料的要玩完。

如果这时你搜索“Hadoop is”,输入栏会自动补齐 “dead”。

于是一个魔幻的现象出现了,一边是 Hadoop 已死,独立供应商要完,一边各大云厂商却在拿 Hadoop 疯狂赚钱。据分析师测算,2018 年单 AWS 的 EMR 就产生了 2.5 亿美金的营收,而该产品介绍就是“Hosted Hadoop framework”。而这并不是孤例,除 AWS 的 EMR 外,谷歌云有 Dataproc,Azure 有 HDInsight,阿里云有 E-MapReduce,云计算四巨头,全都把托管 Hadoop 放到了自己大数据产品的首页,这显然不是已死的技术该享受的待遇。 

Cloudera 的心情,大概就像开头说的种一年菜最后都被鸟收割了一样。

它当然解释过,但没什么效果。另外其实它很早就开始淡化自己是 Hadoop 供应商的概念了,比如和 O'Reilly 合办的 Strata 大会,以前叫 Strata+Hadoop,2017年之后便把 Hadoop 字眼拿掉,改叫了 Strata Data Conference。

只不过这一切几乎没有人听,就像自己已经被大家遗忘掉一样。

当然,Cloudera 无论如何肯定面临着一些问题,而且远比技术问题复杂。

在合并之前,Cloudera 和 Hortonworks 有各自不同的产品线,有各自不同的思路,Cloudera 主打开源引擎加商业周边,Hortonworks 主打全开源。所以合并后的第一个问题便是产品线怎么整合,原有客户怎么迁移。它 Q1 的财报里提到不少客户推迟了续费,主要就是这个原因,大家都在等。

但这个问题最多只算近忧,Cloudera 真正的远虑,则是前面提到的公共云厂商。

云在吞噬一切,包括大数据,它们不止有托管的 Hadoop,还有自研的替代产品。所以逻辑会变成这样,它们会用托管 Hadoop 鲸吞开源市场,然后用自研替代品蚕食 Hadoop。比如 AWS 里的Redshift,从场景上基本可以看成是 Hadoop+Hive 的替代方案,但 2018 年营收约 4 亿美金,远超 Cloudera。而且这个逻辑对所有开源厂商都成立,几乎成了开源软件的公地悲剧。2018 年,在怒斥云厂商为吸血鬼而收效甚微之后,Redis 和 Mongo 两家公司直接修改了开源协议,不再允许云厂商提供托管服务。 

不过 Hadoop 用的是 Apache 协议,修改起来比较困难。但针对近忧远虑,Cloudera 也给出了自己的答案。

那就是 CDP。

03 王者归来 

CDP,全称 Cloudera Data Platform,是 Cloudera 和 Hortonworks 合并后的统一产品线,做了诸多技术升级,更重要的是其部署形态发生了根本性改变——CDP 是基于云的,而且是混合云。

有人戏称,Cloudera 终于迎来了 Cloud Era。

并且,Cloudera 还宣布 2022 年后停止对原来两条老产品线的支持,全统一到 CDP上。很显然,这种大刀阔斧的革新,表明 Cloudera 孤注一掷想借 CDP 王者归来。它说 CDP 是一种新的数据方法,是世界上第一个企业数据云产品,对应的市场规模高达 260 亿美金,并将在三年后翻倍。

能行吗?

我们一层一层来看。 

技术上,首先被大家诟病已久的 Mapreduce 在 Cloudera 的产品里早有了很多替代品,比如 Spark 和 Flink;其次,CDP 整合了云存储,这意味着 HDFS 的争议也能得到解决;最后,CDP 在调度上对接了 K8S,先不说可能性很小,哪怕最后 K8S 完全替换了 YARN,CDP 也能做到几乎不受影响。

所以技术层面,按照 Cloudera CPO 的说法,这叫“Hadoop 已死,Hadoop 万岁”。Hadoop 里几十个项目,是一个生态,甚至一种哲学,早就超越了十几年前 Mapreduce 的范畴,正波浪式的向前蓬勃发展。

商业上,Cloudera 一方面在 2019 年 7 月宣布所有代码全部开源,向红帽的商业模式靠拢。另一方面又在部署形态上做了大幅调整,改成了混合云。 

这又可以分两层来说。

先说第一层,为什么要学习红帽。

实际上业界一直有一种说法,那就是开源软件的商业公司里,真正称得上成功的只有一家,那就是红帽。红帽自 Linux 起家,营收一度高达 30 多亿美金,而且长期盈利,直到 2019 年以 340 亿美金的天价卖给了 IBM。

所以 Cloudera 学习红帽的商业模式很容易理解,而且红帽商业模式里的三个要点,Cloudera 也基本都能满足。

  • 深度参与开源社区——Cloudera 有一百多位 Apache committer,在大数据方面的技术实力无可争议。
  • 代码全部开源,社区版激进,企业版稳定——全部开源是 Cloudera 发表的《我们对开源的承诺》一文的主要内容。
  • 靠企业版订阅产生营收,并提供咨询、支持等服务——CDP,也包括 CDH 和 HDP。

红帽基于 Linux,Linux 和 Hadoop 都是基础软件。虽然层次不同,但按照红帽 CEO 的说法,他们的商业模式比较适合于“复杂、流行、社区驱动的基础软件上”。而大家对 Hadoop 最大的指责就是太复杂,所以,没准这种复杂性恰好有其商业价值,毕竟太简单的也没必要找个商业公司来兜底。

然而,学习红帽是否就够了呢?

红帽成立于 1993 年,那会可没有云计算的威胁。

这就说到了商业上的第二层,也就是 CDP 所指的混合云。

云在吞噬一切,只不过这种吞噬是从互联网创业的增量市场开始的,但随着网络应用的逐渐饱和,这部分市场越来越小,于是云巨头不得不把眼光放到传统IT的存量市场中去。但这些企业跟要么增长要么死亡的互联网创业公司不同,他们更关心稳定性、更关心数据安全,他们有自己的机房,拒绝被云厂商锁定。

于是混合云应运而生。

所谓混合云,就是搭建在自建机房和不同云厂商资源之上的云平台,这种情况下,不管是自建机房还是云厂商,提供的仅仅是底层计算资源,可以根据使用者的意愿随便切换,就像水和电一样,即插即用。

嗯,至少理论上是这样。 

但实际上混合云市场还处在混战之中,参战者至少有三类:一类是公共云厂商,如 AWS 的 Outposts、Azure 的 Azure Stack 和谷歌的 Anthos 等,他们的混合云往往为了线下资源,终点在云,不在混合;另一类是独立混合云供应商,如红帽的 Openshift,他们试图在各大公共云厂商基础上搭建一个通用混合云平台,终点在混合,不在云;还有一类,就是各开源应用厂商自己搭建的混合云,如 Confluent 的 Confluent Cloud、Cloudera 的 CDP、Elastic 的 Elasticsearch Service 等,他们的目标也是混合,但更纯粹,就是要反过来屏蔽云厂商提供的特定开源托管产品。 

现在讨论混合云的最终格局显得有点太不自量力,我们不妨把问题稍微缩小一点,那就是在这种混合云的状态下,Cloudera 的混合“企业数据云”,是否能做成?

先说市场,关于市场分析师有诸多测算,少的也有几百亿,但我们不妨说的简单点——只要大家还要做大数据,Hadoop 就一直有市场。实际上我至今都没发现有谁在做大数据而不用 Hadoop 的。说 Hadoop 有问题,大家都承认,但说他要完,这可有点早。可见范围之内,它还看不到有威胁的整体竞争对手。

既然市场成立,那就看 Cloudera 的竞争对手情况了。 

在 MapR 被收购并且 Cloudera 合并了 Hortonworks 之后,应该没必要再讨论独立供应商里谁最强的问题了,因为答案是显然的。 

至于像 Openshift 这样的独立混合云,很像云计算版的聚合平台,可能长期存在,但我不认为能做大,主要原因还是他们无法通过网络效应增强自己的竞争力,因为可选的供应商太少。而且,他们瞄准的是 PaaS 这层,即通过 K8S 屏蔽 IaaS,所谋甚大,志不在 Hadoop。 

所以 Cloudera 的竞争对手只有公共云厂商。

不过这并不好对比,从技术先进性上来说,Cloudera 显然有优势,如果客户对产品有更高要求,那选 CDP 的可能性要大一些,但从产品模式和市场策略来说,云厂商以 IaaS 高频打低频,在搞定了客户的基础资源之后,再给客户推一个大数据平台,也算顺理成章。 

于是似乎只能草草得出一个要看情况的结论。

但我们不妨跳出来再看一下。

毛爷爷曾写过一篇文章《中国的红色政权为什么能够存在?》,里边这样说道:“我们只须知道中国白色政权的分裂和战争是继续不断的,则红色政权的发生、存在并且日益发展,便是无疑的了。” 那时中国处于国民党的统治之下,并且共产党刚刚遭受了重大打击,很多人开始产生悲观情绪。但毛爷爷指出,国民党的统治貌合神离,蒋桂冯阎四大军阀的背后是不同的帝国主义诉求,他们之间的斗争是不可调和的。所以在他们的斗争之间,红色政权便能产生和发展。

我发现这段精彩论述,完全可以套用在 CDP 要做的混合云身上。

  • 公共云厂商之间互相斗争,只要世界上不止有一个云厂商,那被锁定的担忧就一直存在,混合云的需求也就一直存在。又因为这种担忧是针对云厂商的,所以云厂商提供的混合云天生说服力不足。
  • CDP 的数据混合云是一种“地方经济”,可以脱离统一的“大资本主义经济”而独立存在。即限定到大数据领域,客户可以只用 CDP 而不必依赖特定云厂商的某些特定功能。
  • CDP 的混合云将会先诞生于经过“民主革命”训练的地方。也就是说,那些曾经习惯使用 Cloudera 产品的用户,将会率先迁移到 CDP 的混合云上来,而 Cloudera 长期以来的客户都集中在财富 2000里,大多是传统客户,正是云计算 10% 渗透率以外的地方。是的,云计算高歌猛进了这么多年,渗透率依然只有10%。
  • CDP 这种混合云的诞生和长期发展,需要一支相当力量的“正式武装”。在开源混合云的场景下,这支“正式武装”可以理解为商业公司,言下之意是纯社区建立的混合云无法长期存在。所幸,目前开源应用混合云都是由商业公司建立的,不管是 Confluent、Elastic,还是 Cloudera,均不例外。而且,Cloudera 这支武装相当有力量,100 多名 Apache Committer,3000 多名员工,看似和云巨头动辄几万人的规模差距很大,但限定到大数据领域,恐怕很少有公司能达到这个规模和质量。

所以,CDP 这种企业数据混合云的长期存在和发展,“便是无疑的了”。

但要问在这种情况下 Cloudera 是否真的能王者归来,我无法下断言。

至于原因,不妨引用一下著名史学家史华兹的观点:

否认客观环境先验的重要性是绝对愚蠢的行为,但我的确反对那种主张“形势”自动引起结果的万物有灵论,任务完成与否,不仅取决于所用的方法和客观环境,也取决于承担任务的那些人的思想、意图和抱负。

所以我能做的,只有拭目以待。