图片来源@视觉中国
文 | 爱分析
随着数字化的深入,Hadoop架构的分析平台在成本和业务需求上越来越不能适应企业的要求,因此国内外领先的大数据公司都在转向云原生。云原生架构由于具有弹性伸缩、低成本、敏捷性的优势,正在逐步取代Hadoop,成为新一代数据分析平台的基础。而新一代的数据分析平台也将具备云原生、存算分离、容器化、自动化、湖仓融合、订阅制等特征。区别于美国市场,中国市场的私有云会与公有云共同发力,企业应该看清趋势,尽早做好下一代数据平台架构的选型和搭建。
技术的发展都有着自己的生命周期。在技术从起步到成长,再到成熟、衰退,最终被新技术所取代的过程中,商业化公司一直起到了重要的推动作用,但它们也终将因为技术的迭代而改变自身的走向。
大数据行业近期发生的两件大事,印证了数据分析领域的技术也遵循着这样的演变规律:两家硅谷大数据公司分别IPO和私有化。
6月25日,Apache Kafka商业化公司Confluent正式登陆纳斯达克,首日开涨25%,市值超过110亿美元。Confluent成立于2014年,其提供的是一个实时事件流平台,具有高吞吐、低延时、高可用和数据持久性的能力。公司在2018年推出云原生版本产品Confluent Cloud,并将云原生作为公司的主要战略。
而在此前的6月初,Cloudera却被私有化退市,这一消息令人唏嘘。因为Cloudera从2008年成立至今一直是Hadoop生态的领导者,其开发的产品以及背后基于Hadoop开源技术的生态曾是企业首选的大数据分析解决方案。但Cloudera自2017年5月上市以来一直表现不佳,先后经历过股价腰斩,与业内第二名Hortonworks的合并抱团,以及现在的私有化退市,也代表了Hadoop的颓势。
作为同是出自Apache的顶级项目,为何Confluent和Cloudera却在同一时间在资本市场走向了完全相反的方向?Hadoop为何走向衰落,数据分析技术的未来又会走向何方?爱分析基于对相关领域的持续研究和积累,以及对业内专家的访谈,尝试对这两起事件折射出的数据分析技术的演进趋势做出分析解读。
从企业用户的视角,成本和业务需求实现是技术选型的核心考量。而这两个因素在不同时代的演变,既造就了Hadoop的兴起,也解释了现在Hadoop为何开始走向衰落。
在数据分析技术的演进过程中,成本是首要驱动因素。
在2004年Hadoop诞生之前的近20年中,数据分析技术一直被大规模并行处理(MPP)架构所主导。以Teradata为代表的MPP数仓产品采用基于专有物理硬件的软硬件一体机架构,因此企业在扩展存储和计算资源时需要付出高昂的成本。随着大数据时代的到来,数据量不断加大,企业越来越不堪成本支出的重负,纷纷转向了在软件层面开源免费,硬件层面可以采用廉价PC服务器的Hadoop架构。
但Hadoop架构在成本上对客户而言依然不是最优解。在数字化应用已经无所不在的今天,企业对存储和计算资源都提出了更高的要求。Hadoop没能进一步解决算力和资源的优化问题,也在扩容成本和运维成本上逐渐不能适应企业要求。
在扩容成本方面,Hadoop虽然在软件架构层面实现了计算与存储的分离,但其在硬件层面仍然基于无共享架构,计算和存储资源是耦合的。然而今天企业在计算和存储资源上的扩展需求往往并不同步:计算资源通常仅需在负载高峰期进行扩展,而存储资源的扩展一般是长期、线性的过程。企业无法按需独立扩展计算和存储资源,必然带来资源的浪费。此外,Hadoop的扩容时间成本也非常高,通常Hadoop集群扩容一倍,企业仅在硬件的采购和部署上花费的时间就需要半年或以上。
在运维成本方面,由于Hadoop的解决方案通常是从其生态中的数百个开源项目中选择一堆技术组件组合起来实现相关功能,这样的体系非常复杂,且组件间的耦合度非常高。随着Hadoop生态技术组件越来越庞杂,组件之间的耦合性和差异性要求开发和运维人员具备全栈能力,给企业带来了不菲的运维成本。
成本因素之外,业务需求的变化则在另一个层面驱动了数据分析技术的迭代。
在数仓时代,企业的数据分析需求以处理结构化数据、为业务人员作报表应用为主,MPP架构在当时能够很好地满足这些需求。
但随着互联网、移动互联网的逐步普及,企业内沉淀的数据量呈现出爆发式增长,不仅数据量本身变得很大,数据类型也从原来的结构化数据为主,发展为包含各类结构化、半结构化、非结构化,以及图片和音视频数据。MPP架构无法承接对大量非结构化和半结构化数据的处理,而Hadoop架构由于生态内具有众多组件能够实现不同功能,可以处理复杂类型的数据,其分布式架构也能够为企业实现大数据分析的高性能,以Hadoop为基础的数据湖架构兴起。
然而近年来,企业面临的数据分析业务需求也发生了重要改变,使得Hadoop越来越不能很好地满足企业日益复杂的分析需求。这些改变主要体现在三个方面:
1)随着数字化转型浪潮的推进,企业有越来越多在线化、互联网化的业务场景,上云的渗透率越来越高,大量数据的产生、采集和应用都发生在云端,而更适应本地化部署特性的Hadoop很难满足企业数据流动的需要。
2)同样随着企业数字化的深入,企业产生了大量创新性的数据应用需求,需要快速落地、快速迭代。而Hadoop架构由于过于繁重,无法适应企业对数据应用的敏捷性需求。
3)人工智能和机器学习在数据分析领域的应用正在加速落地,而一些高级的分析框架,比如TensorFlow,其分布式架构在设计之初就是基于云原生架构,没有考虑过Hadoop架构,因此在Hadoop上很难部署和运行这类高级分析框架。
既然Hadoop在面对新的数据分析需求时已经展现出种种不足,那下一代架构是什么?事实上,包括Confluent在内的新一代大数据公司已经回答了这个问题——拥抱云原生。云原生是指在应用的设计阶段就为了云的运行环境而设计,包含微服务、容器化、DevOps、持续交付等特征,充分利用和发挥云平台的弹性和分布式架构的优势。
由于意识到企业用户的需求正在往云端、存储计算分离、敏捷等方向上发展,一些领先的大数据公司早在几年前就将重点放在了云原生版本的产品上,也由此获得了显著的成功。
以刚刚IPO的Confluent公司为例,其所代表的开源流数据工具Kafka最早也是源自于Hadoop生态。Kafka为不同数据源之间数据的交换这个任务而生,Confluent将Kafka商业化推出Confluent Platform并取得了成功,随后在2018年推出了云原生的版本Confluent Cloud,为用户提供完全托管的云端服务,具备弹性伸缩以及支持用户敏捷开发等特性。
根据Confluent招股说明书,Confluent Cloud在2020年取得了3140万美元的订阅收入,2019年、2020年和2021年前3个月的增速分别达到454%、117%和124%。尽管Confluent Cloud的收入目前仅占到公司总收入的20%左右,但其表现出的成长性远超本地产品Confluent Platform约50%的增速。Confluent在招股说明书中也强调了公司云原生的战略,并将Confluent Cloud视为公司未来收入增长的最重要产品。这应该也是资本市场给与Confluent高度认可的主要原因。
在此之前,去年IPO、市值曾达800亿美元的明星大数据公司Snowflake,更是云原生的代表。Snowflake针对云计算环境将产品特性进行了深度优化,在云端向客户提供简单易用、弹性伸缩、按使用量计费的一站式数据管理和分析平台。其突出特征是支持计算、存储节点单独扩展,从而实现了资源的精细化管理,有效降低了扩容成本,同时可以做到按使用量付费。
同样是硅谷热门的大数据公司Databricks,其提供的是一个云上的面向数据分析师和数据科学家的大数据分析平台,用户可以通过Databricks在云端环境中实施整个大数据方案,从数据提取、数据转换、交互式处理,到数据产品等。Databricks底层计算使用Spark,存储使用Delta云存储服务,支撑了企业在云端对各种结构化、半结构化和非结构化数据的分析。
国内厂商中,源自Apache Kylin的大数据管理和分析平台提供商Kyligence也是一个典型的案例。据Kyligence联合创始人兼CEO韩卿表示,公司在成立之初产品是基于Hadoop架构的,但在2018年左右,公司敏锐地预判到客户的需求逐渐在往云原生、存储计算分离的方向上发展。因此Kyligence对原有产品架构做了一些新的设计,在2019 年推出了完全脱离Hadoop平台的云原生产品Kyligence Cloud,其底层使用了云原生架构,存储使用云厂商的对象存储,计算使用Spark+容器化,资源可以直接对接云平台的IaaS服务和ECS。Kyligence Cloud通过多维数据立方体(cube)预计算、分布式聚合索引和云原生弹性架构结合,不仅显著简化了云上数据仓库和数据湖的数据处理和分析工作,同时也大幅降低了企业使用云分析的成本。因此,Kyligence Cloud获得了诸如UBS等国内外头部公司的认可和采用。
可以看到,云原生架构的浪潮已经到来。总结起来,云原生架构之所以在当下被越来越多地采纳,主要在于其三方面的显著优势:弹性伸缩、低成本和敏捷性。
首先是云原生架构为数据分析带来的弹性伸缩能力。因为云原生架构可以轻松实现计算和存储资源的分离,企业可以做到按照实际需求分别购买存储和计算资源,并随启随停,真正实现按照资源消费量来付费,与此同时,在云端的扩容也可以在几分钟内完成 。这种使用方式极大地优化了企业对资源的使用效率,降低了使用成本。
其次,云原生架构也极大地降低了企业的运维成本。因为在云原生架构下,云厂商提供了完整的IaaS基础设施,省去了企业硬件投入和运维工作的同时,企业也能充分运用IaaS的底层分布式框架实现各种操作,从而大大降低系统复杂性,提高系统运行效率。
最后是敏捷性。随着企业数字化和智能化应用的深入,云原生架构弹性伸缩、存算分离支撑下的按需付费特性,能够让企业花费很少的成本先尝试新应用。如果应用效果好,企业可以在此基础上加大投入继续推进;如果方向出现问题,企业可以及时停止项目,沉没成本能够控制在很低的水平。这样的敏捷性很好地支撑了企业去尝试各种新的数据应用,从而增强了企业的竞争优势。
基于对企业数字化转型与数据分析需求的趋势判断,并结合领先大数据公司在产品设计上采取的技术路线,可以看到,以云原生架构为基础的全新的数据分析平台将成为未来的主流。云原生特性作为技术架构层面的变化,也将为企业数据分析应用带来更多的可能。对此,爱分析从技术、数据架构和商业模式三个维度总结了下一代数据分析平台将具备的特征。
从技术维度,下一代数据分析平台将会具备云原生、存算分离、容器化和自动化四个特征。
1)云原生。随着云计算的逐渐普及,企业上云步伐的加快,企业主要的IT基础设施都将部署在云端,因此数据分析平台以及数据的分析和应用都将主要在云端进行。
2)存算分离。随着企业对数据分析应用需求的持续增加,计算资源的扩展需求进一步增长,存算分离的价值也将凸显。企业可以按需对存储和计算资源在云端分别进行扩容,由此能够以很低的成本获得近乎无限的算力。
3)容器化。基于云原生的背景,未来企业的数据应用在很多情况下,将会跨云甚至跨基础设施进行。容器化的价值在于可以让企业在不同的基础架构之上快速构建统一的数据分析平台,实现数据应用的平滑迁移。
4)自动化。传统的数据分析平台在分析和应用的多个环节仍然依靠人工进行处理,比如数据标注、数据清洗。通过在数据分析平台中应用AI增强技术,首先可以在云端对存储和计算资源分别做自动优化,提高资源使用效率,为企业降低成本;其次,在数据清洗、数据建模、数据分析等环节使用自动化,能够极大地提升分析平台的易用性,节省大量人力成本,提升数据应用开发的敏捷性。对AI增强技术的大量采用也正是Snowflake具备出众易用性的原因。
在数据架构维度,随着数据分析的复杂度以及企业对数据分析实时度的要求越来越高,传统的数据仓库与数据湖割裂的局面将会走向融合。Gartner认为,数据仓库通常是用已知数据解答分析已知问题,数据湖通常是用未知数据解答分析未知问题,而新的数据架构需要解决的是这两种场景之上模糊地带的需求。而根据研究机构EMA将新一代架构定义为“统一分析仓库”(Unified Analytics Warehouse),这种新的数据架构需要具备高性能与企业级完整度、分析灵活性与低延迟、高扩展性及与现有设施的兼容性这三个方面的能力。此外,业内也有“湖仓一体”的提法,尚未达成统一。对此,爱分析会在后续的研究中详细探讨。
最后,在商业模式维度,技术架构上的变化也将带来商业逻辑的变化,订阅制、按需付费将会成为企业使用分析平台的主要付费方式。由于在云原生架构下可以支持存算分离和弹性伸缩,企业不再需要在前期先投入大量成本购买硬件,而是可以在云端基于需求按使用量付费,实现“Pay as you go”。订阅制从根本上颠覆了企业使用数据平台的付费方式,其对于企业的核心价值是使得企业可以以很低的成本探索各种创新型的数据应用,从而使数据发挥更大的价值。同时,订阅制也驱动厂商更加持续关注企业客户成功,保持与客户长期共生和互利的关系。以Kyligence为例,其全线产品目前在国内都已经广泛采用订阅模式来服务客户,尤其是在银行、保险等金融行业头部客户也已采纳订阅制,这说明国内企业的付费观念已经发生变化,在美国已经是主流的订阅制的付费模式同样也适合中国市场。
以上对数据分析走向云原生架构趋势的总结,主要基于对美国市场的观察。相比美国市场以公有云为主导的市场环境,中国市场会呈现出明显差异。
首先,中国云计算市场起步时间较晚,相比美国落后五到七年左右,同时企业尤其是传统企业的上云步伐也不如美国企业激进,大量业务数据仍然停留在传统IT环境中。因此,中国市场转向云原生的渗透仍然有数年的窗口期,在这个架构迭代的窗口期内,包括传统数据库厂商、云厂商和新兴厂商在内,各方参与者的竞争格局将发生新一轮洗牌。
其次,由于政策监管、行业特性和观念等因素,国内以金融和政府公共事业为代表的行业企业以及央国企,中长期来看仍将采纳以私有云、行业云为底座的混合架构,公有云很难占据主导地位。因此,面向中国市场的云原生架构的数据分析平台,需要考虑如何在以私有云为主的架构环境下,仍能让企业用户充分享受到云原生特性带来的优势,这背后有大量问题需要解决。
以Kyligence为例,其针对国内外市场推出了不同版本的解决方案。在国际市场,Kyligence对接了公有云平台Azure和AWS,用户可以在线购买和使用其产品,服务了包括UBS这样的行业顶尖客户。在国内市场,Kyligence除了提供公有云和本地部署版本的产品,也推出更适合国内企业客户的私有云版本产品,并且其私有云版本产品获得了多个大型金融机构的采用。
Hadoop的时代已经走向落幕,云原生是大势所趋。但Hadoop并不会在这个时间点很快消亡,而是会平滑地过渡到下个技术阶段,今天的Hadoop依然是很稳定的大数据解决方案。中国市场相比美国的滞后,给广大企业为未来三到五年做好数据平台架构的选型和相应的技术储备,构建新一代的数据分析平台,预留了充足的时间。对于那些已经把数字化作为根本战略的企业,更应该尽快拥抱这样的趋势,以在未来的企业竞争中保持优势。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
2022-09-14 钛媒体 App发布了 《星巴克加码中国市场,未来三年要新增开3000家门店|钛快讯》的文章
2022-08-11 钛媒体 App发布了 《白云山麾下公司虚抬药价“把戏”,被拆穿了》的文章
2022-07-06 钛媒体 App发布了 《为了帮00后卷王找到工作,简历修改师们拼了》的文章
2022-07-06 钛媒体 App发布了 《威尼斯向游客收“进城费”,国内城市如何借鉴?》的文章
2022-03-25 钛媒体 App发布了 《蔚来2021年财报发布:年营收361亿元,整车毛利率达到20.1%》的文章