Databricks开源声明式ETL框架,加速数据管道构建90%‌

Databricks开源声明式ETL框架,加速数据管道构建90%‌

在近日举行的年度Data + AI峰会上,Databricks公司宣布了一项重大举措:将其核心的声明式ETL框架开源,并命名为Apache Spark声明式管道(Apache Spark Declarative Pipelines)。这一框架将作为Apache Spark社区的一部分,在未来的版本中向所有用户开放。

Delta Live Tables到开源声明式管道

Databricks在2022年首次推出了Delta Live Tables(DLT)框架,旨在帮助团队构建和运营可靠、可扩展的数据管道。经过不断的发展和完善,DLT如今已成为一个强大的工具,能够处理从日常批处理报告到亚秒级流处理应用的各种工作负载。此次将其开源为Apache Spark声明式管道,不仅体现了Databricks对开放生态系统的承诺,也是对数据工程领域的一次重大贡献。

简化数据工程,应对三大痛点

传统数据工程面临三大主要痛点:复杂的管道编写、手动操作负担重以及需要维护独立的批处理和流处理系统。Apache Spark声明式管道通过一种全新的方式解决了这些问题。工程师只需使用SQL或Python描述他们的管道应该做什么,Apache Spark就会自动处理执行过程。这一框架自动跟踪表之间的依赖关系,管理表的创建和演变,并处理诸如并行执行、检查点和重试等生产运营任务。

支持多种数据类型,实现一体化处理

Apache Spark声明式管道支持批处理、流处理和半结构化数据,包括来自Amazon S3、ADLS或GCS等对象存储系统的文件。工程师只需通过一个API定义实时和定期处理,无需维护独立的系统。这一特性使得处理现代数据变得更加容易,无论是变更数据捕获、消息总线还是实时分析,只要Apache Spark能够处理的数据,这些管道都能轻松应对。

显著提升开发效率和性能

多家企业已经体验到了Apache Spark声明式管道带来的好处。例如,金融服务公司Block使用该框架将开发时间缩短了90%以上,而Navy Federal Credit Union则减少了99%的管道维护时间。此外,该框架还基于Spark Structured Streaming引擎构建,使团队能够为特定延迟需求定制管道,实现实时流处理。

与竞争对手的区别与优势

在数据工程领域,Databricks的竞争对手Snowflake也推出了自己的数据集成服务Openflow。然而,Openflow主要基于Apache NiFi构建,专注于将数据从任何源集中到Snowflake平台上。用户仍然需要在数据到达Snowflake后进行清洗、转换和聚合。相比之下,Apache Spark声明式管道则提供了从源到可用数据的端到端解决方案,进一步简化了数据处理流程。

开源与商业版本并行推进

随着Apache Spark声明式管道的开源,Databricks还推出了其商业版本——Databricks Lakeflow声明式管道,该版本包含了额外的企业特性和支持。这一举措使得更多团队能够受益于这一创新技术,无论是开源用户还是Databricks的客户。

总结与展望

Apache Spark声明式管道的开源是Databricks在数据工程领域迈出的重要一步。它不仅简化了数据管道的构建和运营,还显著提高了开发效率和性能。随着越来越多的企业采用这一框架,我们期待它能够在未来成为数据工程领域的标准工具之一。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/databricks-kai-yuan-sheng-ming-shi-etl-kuang-jia-jia-su-shu

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年6月13日
Next 2025年6月14日

相关推荐

发表回复

Please Login to Comment