了解更多Greenplum技术干货,欢迎访问Greenplum中文社区网站
导读:从最初的 Greenplum 开始,到现在已经超过15年的验证,我们一直是 Greenplum 的用户。多年来,随着我们对产品和支持的信心不断增强,它已逐渐成为VLDB的默认平台。希望本文讲述的这些原因能解除大家的困惑。
本文翻译自 VLDB Co-founder Paul Johnson 发布于 Linkedin 上的《 Why Greenplum Is The Best…Of The Rest 》,原文链接:
https://www.linkedin.com/pulse/why-greenplum-bestof-rest-paul-johnson/?from=groupmessage&isappinstalled=0。
面向数据仓库领域的数据库众多,带头进入这一领域的老大哥是上世纪80年代创立的Teradata。
早在20世纪80年代,Teradata 公司在市场上推出了与其公司同名的分析型数据库,当时大体量的数据还在用 Terabyte(TB)表示。那时,确切的说是在 Teradata DBC1012 上运行查询。这张图片是我1988年刚开始接触 Teradata 时的参考卡片。
早在20世纪80年代,Teradata公司在市场上推出了与其公司同名的分析型数据库,当时大体量的数据还在用Terabyte(TB)表示。那时,确切的说是在Teradata DBC1012上运行查询。这张图片是我1988年刚开始接触Teradata时的参考卡片。
在过去的几年中,数据仓库领域已经大大升温。现在有比之前更多的选择。Teradata可能仍然是市场领导者,但并非每个人都需要Teradata。
那么,如果Teradata仍然是市场上的老大哥,那么其余的呢?
在这里,我们要告诉那些一直在关注该领域的人,我们很久以来一直是Greenplum的死忠粉。
出于“推崇共享”(显然共享很重要)的价值观,我们展开阐述“ VLDB团队”成为Greenplum粉丝的十大原因。
1. Greenplum“可以在任何地方构建”,而不仅仅在云上构建
传统数据仓库系统针对本地物理硬件进行了优化。这并不奇怪,因为旧系统要早于AWS,Azure和Google等公有云的出现。
相比之下,Redshift,BigQuery和Snowflake等“现代数据仓库系统”是“仅运行在云上”的。这些现代数据仓库系统都不支持非云环境部署。Redshift仅适用于AWS,BigQuery仅适用于Google。用户的选择并不多 – 要么选择数据库要么选择平台,但不能两者都选。
Greenplum则是“可以在任何地方构建”的数据仓库。Greenplum可以在物理硬件、VMWare私有云和AWS或Azure或Google等公有云平台上运行。为了跟上时代前沿,还支持Kubernetes(K8S)部署。
只要您选择的平台支持Linux,就可以使用Greenplum。
2. Greenplum是MPP架构
公认的是,通用SMP数据库(例如Oracle,SQL Server和MySQL)无法一直扩展以满足数据仓库系统的需求。
与通用SMP数据库不同,Greenplum部署为“大规模并行处理”(MPP)体系结构的群集。与SMP体系不同,MPP体系结构是线性的可扩展的,因此可以不断地添加更多的计算、存储或网络带宽资源。
多亏了Teradata的朋友,MPP架构在现实世界中已有30年的成功记录。
Greenplum的可扩展MPP体系结构使您可以从单个节点开始,根据需要扩展集群,以满足不断变化的容量、吞吐量和性能需求。
借助经过验证的MPP架构,您始终可以扩展Greenplum集群以满足您的确切要求。
3. Greenplum是并行的Postgres数据库
数据仓库通常是现代企业中的关键报告、查询分析和决策支持系统。所以将此类活动赋予一个具有明确可追踪记录的系统是至关重要的。
Greenplum是一个“大规模并行Postgres”系统,并且是“ 唯一”的开源MPP数据仓库系统。
Postgres数据库拥有30年的历史,被誉为“世界上最先进的开源数据库”。
诸如Greenplum和Netezza(RIP)的并行Postgres数据库已有15年的历史,并且已经证明了基于Postgres构建MPP平台的优势。
Greenplum最初是在2005年从Postgres分拆出来的,从那时开始,Greenplum的内核一直保持在较老版本(Postgres 8.2)。自从2015年开源以来,Greenplum研发团队明显加快了合并Postgres新版本代码的速度,目标是在2020年合并到当前最新版本的Postgres。
在所有并行Postgres数据库系统中,Greenplum是唯一具有详细近期开发路线图的数据库,可实现最新最完整的Postgres代码整合并合理利用Postgres全球开源社区开发的新功能来完善自己。
4. Greenplum后面有Pivotal公司背书
Greenplum数据库软件的核心是“开源”的。该软件主要由Pivotal开发和推广。与VMWare、RSA和EMC等技术行业巨头一样,Pivotal也是Dell Technologies集团公司的一部分。
与Linux /RedHat的模式类似,Pivotal对Greenplum提供付费支持。
Pivotal支持的Greenplum版本还包括其他增值组件,例如Greenplum命令中心(GPCC,一款优秀的监控和运维工具)。
Greenplum拥有Pivotal公司这个强力后台。企业级支持可用于开源Greenplum数据库。互相促进。
5. 无评估许可费用
“概念验证”项目或POC通常是证明任何新技术选型价值的重要步骤。数据仓库系统也不例外。
Pivotal的许可模式允许用户在POC期间免费使用Greenplum数据库。
这期间,您可以在选择的基础架构上评估Greenplum的功能和性能,而无需支付任何软件许可费用。
免费的评估许可证意味着您无需过多担心许可时间或POC功能阉割等问题,Greenplum的价值也可以迅速得到体现。
6. 简单的基于CPU内核的定价
传统数据仓库系统通常要求购买完整的硬件/软件/存储堆栈。传统方法可能会涉及大量的前期资本支出(“CapEx”)。
现代的纯云数据仓库系统通常按使用量或“现收现付”(PAYG)定价。尽管PAYG模型避免了前期资本支出,但基于消耗的模型可能会导致不可预测且不受限制的运营支出(OpEx)。
Pivotal对于Greenplum的授权是一种简单的基于CPU内核的定价授权方式。Pivotal的基于计算的订阅模型不需要预先的资本支出,并且避免了不可预测和不受限制的运营支出的风险,而现代纯云产品通常就是这种情况。
同样使用简单的基于CPU内核的定价授权方式,客户或者在内部部署Greenplum或者通过公共云进行部署 – 两种方式都没有进一步的成本投入。
7. Greenplum在SQL上运行
自20世纪70年代以来,关系型数据库管理系统(RDBMS)和结构化查询语言(SQL)的组合一直是数据管理领域的基础。
从运行SQLite的嵌入式系统到PB规模的数据仓库集群,数据管理世界仍在SQL上运行,这是不争的事实。这不太可能在短时间发生改变(这件事,有人可以告诉Hadoop的粉丝吗?)。
作为一个Postgres集群系统,Greenplum在SQL上运行。在外界看来,它就像一台单独的Postgres数据库一样。
无须学习新的编程语言;无须增加新的ETL开发人员、BI开发人员或最终用户培训计划;无需购买新的BI工具。
Greenplum在SQL上运行,这就是您所需要的。你们都已经了解SQL了,对吧?
8. 涵盖了数据科学领域
SQL非常适合传统的数据仓库场景,例如ELT样式的ETL、KPI报告、BI工具和最终用户查询,但是那些令人讨厌的新型“数据科学”场景呢?
好消息是,Greenplum还通过R、Python和Madlib覆盖了数据科学领域。
Greenplum支持存储过程语言PL/Python和PL/R。
Python和R均可用于创建用户定义函数(UDF),以提供可扩展的数据库内数据科学能力。
Apache Madlib是一个开源的数学、统计和机器学习库,可与Greenplum一起使用,以处理结构化和非结构化数据,以提供可扩展的数据库内分析能力。
可以使用Madlib开发基于SQL的算法,而无需将Greenplum的数据传输到别的工具再进行数据科学算法处理。
集成了Python、R和SQL的Madlib库可用于在Greenplum数据库内开发和部署数据科学应用程序,而无需额外费用支出。
9. Gartner高度评价Greenplum
数十年来,技术行业对分析师的评价深信不疑。Gartner几乎可以肯定是技术领域中最具影响力的分析公司。
Gartner于2019年3月19日发布的“传统数据仓库”用户用例中,对比列出了主要的数据仓库产品/服务供应商所处的位置。
毫不奇怪,Teradata以3.73分(满分5分)排名第一。Pivotal Greenplum的得分为3.49,排名第三,仅次于Oracle Exadata,它的得分为3.54,排名第二。
根据Gartner的调查,Greenplum的排名高于SAP HANA(3.35)、Google BigQuery(3.27)、IBM DB2(3.22)、Snowflake(3.22)、Amazon Redshift(3.16)和Microsoft Azure SQL数据仓库(3.15)。
考虑到传统数据仓库用例积累时间较长,也许不足为奇,相比之下,Hadoop供应商(MapR,Hortonworks和Cloudera)的得分都低于3.0。
Gartner在“传统数据仓库”用例中对Greenplum给予了很高的评价。除非您需要Oracle Exadata系统(现在谁还需要呢?),否则只有Teradata配处于Greenplum前列。
10. 最适合生产的系统
“一切工作都可以在PowerPoint完成”这一事实可能是技术行业中的一个大问题。不仅如此!
POC通常是在购买产品之前验证技术的潜在风险点。POC的顺利完成无疑可以增加信心,但是要确保数据仓库技术可以应付“鼎盛”时期的生产状态,仍然需要翻越巨大的鸿沟。
在VLDB团队中,我们推崇“用行动展示给我,不要只动嘴”的法则。我们也确实如推崇的法则那样挑剔!
使用Greenplum来应对其长期业务负载的用户包括摩根士丹利和Conversant Media。
摩根士丹利的Greenplum生产环境由数百台服务器组成,并支持20PB的原始数据(压缩后10PB)。类似的规模,Conversant的Greenplum系统单表规模已经达到上亿亿…行(特别特别多)。
为什么这件事这么重要?像MorganStanley和Conversant这样的最终用户可以提供给您强有力的证据,证明Greenplum已经有能力应对您苛刻的生产中的工作负荷。
就像那个男人说的:
“无论我们想出什么用例,以及想出什么方式来更好地理解用户,Greenplum都可以做到这一点。”
——Conversant负责数据仓库的副总裁John Conley
Greenplum摘要
这样已经足够证明了 – 就数据仓库平台而言,这是我们认为Greenplum是和其他相比最佳的十大理由。
从最初的Greenplum开始,到现在已经超过15年的验证,我们一直是Greenplum的用户。多年来,随着我们对产品和支持的信心不断增强,它已逐渐成为VLDB的默认平台。希望本文讲述的这些原因能解除大家的困惑。