

数据与AI业者Databricks决定收购开发Iceberg项目的数据管理业者Tabular,以改善Delta Lake与Iceberg之间的兼容性
Tabular
数据与AI业者Databricks周二(6/4)宣布,已同意买下数据管理业者Tabular,准备改善数据湖仓(Lakehouse)格式的兼容性。双方并未揭露交易细节,但《华尔街日报》(Wall Street Journal)报导,此一交易规模介于10亿~20亿美元之间,预计于今年7月完成交易。
Databricks与Tabular的创办人都来自开源社群。其中,Databricks在2013年由Apache Spark的原始创办者所设立,Apache Spark为一锁定大规模数据处理的开源统一分析工具,之后Databricks也打造了开源的Delta Lake数据湖项目;至于Tabular则是在2021年由Ryan Blue、Daniel Weeks和Jason Reid所创立,Blue与Weeks在任职于Netflix时开发了「冰山」(Iceberg)项目,这是个用于大型分析表格的格式,之后把它捐给了Apache软件基金会。
迄今全球已有超过500名工程师贡献Delta Lake项目,并有逾1万家企业使用Delta Lake,平均每天处理4 EB以上的数据量。
Databricks表示,Delta Lake与Iceberg项目在差不多的时间问世,皆为数据湖仓格式主要的开源标准,可惜的是,虽然它们都是基于Apache Parquet并有类似的目标与设计,却因彼此独立开发而互不兼容。在收购Tabular之后,Databricks打算与Delta Lake及Iceberg密切合作,推动彼此格式的交互。
至于Tabular也说,数据生态体系充斥着开放表格格式的讨论,大家都希望能够有一个安全且集中的数据架构,可链接到各种专业的运算框架或引擎,从而解锁新的数据管理及分析能力,与Databricks携手建置一个共同的数据标准将可实现此一愿景。