Databricks开源声明式ETL框架，加速数据管道构建90%‌

王浩然 • 2025年6月13日下午7:00 • AI前沿 • 289 views

在近日举行的年度Data + AI峰会上，Databricks公司宣布了一项重大举措：将其核心的声明式ETL框架开源，并命名为Apache Spark声明式管道（Apache Spark Declarative Pipelines）。这一框架将作为Apache Spark社区的一部分，在未来的版本中向所有用户开放。

‌从Delta Live Tables到开源声明式管道‌

Databricks在2022年首次推出了Delta Live Tables（DLT）框架，旨在帮助团队构建和运营可靠、可扩展的数据管道。经过不断的发展和完善，DLT如今已成为一个强大的工具，能够处理从日常批处理报告到亚秒级流处理应用的各种工作负载。此次将其开源为Apache Spark声明式管道，不仅体现了Databricks对开放生态系统的承诺，也是对数据工程领域的一次重大贡献。

‌简化数据工程，应对三大痛点‌

传统数据工程面临三大主要痛点：复杂的管道编写、手动操作负担重以及需要维护独立的批处理和流处理系统。Apache Spark声明式管道通过一种全新的方式解决了这些问题。工程师只需使用SQL或Python描述他们的管道应该做什么，Apache Spark就会自动处理执行过程。这一框架自动跟踪表之间的依赖关系，管理表的创建和演变，并处理诸如并行执行、检查点和重试等生产运营任务。

‌支持多种数据类型，实现一体化处理‌

Apache Spark声明式管道支持批处理、流处理和半结构化数据，包括来自Amazon S3、ADLS或GCS等对象存储系统的文件。工程师只需通过一个API定义实时和定期处理，无需维护独立的系统。这一特性使得处理现代数据变得更加容易，无论是变更数据捕获、消息总线还是实时分析，只要Apache Spark能够处理的数据，这些管道都能轻松应对。

‌显著提升开发效率和性能‌

多家企业已经体验到了Apache Spark声明式管道带来的好处。例如，金融服务公司Block使用该框架将开发时间缩短了90%以上，而Navy Federal Credit Union则减少了99%的管道维护时间。此外，该框架还基于Spark Structured Streaming引擎构建，使团队能够为特定延迟需求定制管道，实现实时流处理。

‌与竞争对手的区别与优势‌

在数据工程领域，Databricks的竞争对手Snowflake也推出了自己的数据集成服务Openflow。然而，Openflow主要基于Apache NiFi构建，专注于将数据从任何源集中到Snowflake平台上。用户仍然需要在数据到达Snowflake后进行清洗、转换和聚合。相比之下，Apache Spark声明式管道则提供了从源到可用数据的端到端解决方案，进一步简化了数据处理流程。

‌开源与商业版本并行推进‌

随着Apache Spark声明式管道的开源，Databricks还推出了其商业版本——Databricks Lakeflow声明式管道，该版本包含了额外的企业特性和支持。这一举措使得更多团队能够受益于这一创新技术，无论是开源用户还是Databricks的客户。

‌总结与展望‌

Apache Spark声明式管道的开源是Databricks在数据工程领域迈出的重要一步。它不仅简化了数据管道的构建和运营，还显著提高了开发效率和性能。随着越来越多的企业采用这一框架，我们期待它能够在未来成为数据工程领域的标准工具之一。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/databricks-kai-yuan-sheng-ming-shi-etl-kuang-jia-jia-su-shu

Like (0)

王浩然作者

0 0

CrowdStrike Falcon：为NVIDIA大型语言模型提供运行时防御‌

Previous 2025年6月13日

微软支持的Mistral AI推出欧洲AI云，意在挑战AWS与Azure

Next 2025年6月14日

AI前沿

可区分自适应合并正在加速企业的 SLM

模型合并是一个基本的人工智能过程，使组织能够重复使用和组合现有的训练模型来实现特定目标。如今，企业可以使用各种方法进行模型合并，但许多方法都很复杂。一种称为可微分自适应合并(DA…

王浩然
2024年10月25日
000
AI前沿

微软正致力于打造适用于Copilot的3D游戏体验‌

近期，有迹象表明微软正着手开发一款专为Copilot设计的3D游戏体验。这一举措不仅彰显了微软在游戏领域的持续探索与创新，也预示着AI与游戏技术的深度融合将迎来新的发展阶段。据悉…

王浩然
2025年3月12日
000
AI前沿

2025 年企业 AI 成功剧本：从代理到评估

2025 年将成为企业 AI 的关键一年。过去的一年见证了快速创新，今年也将如此。这使得重新审视您的AI战略以保持竞争力并为客户创造价值变得比以往任何时候都更加重要。从扩展 AI …

王浩然
2025年1月7日
000
AI前沿

英伟达 GPU 赋能甲骨文下一代企业 AI 服务：软硬件协同重塑企业 AI 落地范式

在企业级 AI 算力需求呈指数级增长的当下，甲骨文（Oracle）与英伟达（NVIDIA）的深度合作正彻底改变企业 AI 服务的部署逻辑。双方在 Oracle AI World 大…

王浩然
2025年10月16日
000
AI前沿

在智能体浪潮中，AWS 押注结构化合规与规范保真 ——Kiro 正式发布引领 AI 编程新范式

AWS 在竞争激烈的 AI 编程智能体赛道中推出重磅举措，其 AI 编程工具 Kiro 从 7 月的公开预览阶段正式全面可用，并新增多项核心功能，以 “规范驱动开发” 为核心差异化…

王浩然
2025年11月20日
000
AI前沿

Appen 首席执行官 Ryan Kolln – 访谈系列

Ryan Kolln是Appen的首席执行官兼董事总经理。Ryan 拥有 20 多年的全球技术和电信经验，对 Appen 的业务和 AI 行业有着深刻的理解。他的职业生涯始于一名…

点点
2024年10月23日
000
AI前沿

图形数据库军备竞赛：微软及其竞争对手如何彻底改变网络安全

随着民族国家和资金雄厚的网络犯罪攻击团伙试图利用数字资产防御的巨大漏洞，多域攻击即将成为一种数字流行病。企业不得不应对企业资产、应用程序、系统、数据、身份和终端之间不断扩大且往往未…

王浩然
2024年11月23日
000
AI前沿

字节跳动发布Seed-Thinking-v1.5，进军推理AI领域

在AI技术日新月异的今天，各大科技巨头纷纷在推理AI领域展开激烈角逐。近日，字节跳动，这家以TikTok闻名的中国互联网巨头，也正式宣布推出其最新的大型语言模型——Seed-Thi…

王浩然
2025年4月12日
000
AI前沿

阿里巴巴发布了一款“公开”挑战 OpenAI o1 推理模型的模型

一种新的所谓“推理”人工智能模型 QwQ-32B-Preview 已经问世。它是少数几个可以与 OpenAI 的o1相媲美的模型之一，也是第一个可以在宽松许可下下载的模型。 QwQ…

王浩然
2024年11月28日
000
AI前沿

OpenAI最新大型语言模型为中国AI初创企业开辟新机遇

在人工智能（AI）领域，大型语言模型（LLM）的突破正引领着新一轮的技术革命。近日，OpenAI宣布了其最新的LLM成果，这一消息迅速在全球范围内引起了广泛关注，特别是对中国AI初…

王浩然
2025年5月2日
000
AI前沿

谷歌在印度推出AI驱动营销工具，助力广告业发展

在谷歌税废除之后，全球科技巨头谷歌迅速行动，将其在美国市场大获成功的AI驱动广告工具引入印度市场。这一举措不仅反映了印度数字广告市场的巨大潜力，也彰显了谷歌在全球范围内的战略布局。…

王浩然
2025年7月13日
000
AI前沿

GPT-4o遭遇反感后，研究人员对模型进行道德背书基准测试，发现谄媚行为普遍存在‌

在人工智能领域，每一次技术革新都可能伴随着争议与挑战。近期，OpenAI的GPT-4o模型在推出后，因被指对用户过度谄媚而引发了一系列讨论。这一行为，被称为“谄媚性”，导致模型过于…

王浩然
2025年5月24日
000
AI前沿

Android 版 Gmail 用户现可与 Gemini 聊天讨论电子邮件

Android 设备上的 Gmail 用户现在可以直接与 Google 的 AI 助手 Gemini 聊天，讨论 Gmail 应用中的电子邮件。据一篇博客文章称，Google 于周…

王浩然
2024年8月30日
000
AI前沿

Meta 加入核能数据中心潮流

今年早些时候，Meta 试图通过简单的方式获得自己的核能数据中心，即在现有反应堆旁边建造一个。但在监管机构对该计划泼冷水之后——据报道，该地点是一种稀有蜜蜂物种的家园——该公司又提…

王浩然
2024年12月5日
000
AI前沿

拥抱变化而不牺牲传统：人工智能代理对信用合作社的承诺

近年来，金融服务业一直引领创新，推出金融科技、数字银行和其他技术解决方案，该行业在风险投资中一直名列前茅。然而，信用合作社等金融机构的情况却并非如此，它们通常依靠与会员的面对面互动…

王浩然
2025年1月15日
000
AI前沿

Encord CEO Eric Landau访谈：AI如何颠覆行业？

Eric Landau 是Encord的首席执行官兼联合创始人，Encord 是一个计算机视觉主动学习平台。Eric 曾是全球股票 delta-one 部门的首席量化研究员，将数千…

点点
2024年9月11日
000
AI前沿

AI语音侵权再引争议：前NPR主播起诉谷歌未经授权复刻其声音

当人工智能技术以惊人速度渗透进各个行业时，创意领域的版权与权益保护问题正愈发凸显。近日，前美国国家公共广播电台（NPR）资深主播大卫·格林（David Greene）正式对谷歌提起…

王浩然
2026年2月22日
000
AI前沿

GPT-4.1引发AI价格战，开发者受益颇丰

在人工智能领域，一场前所未有的价格战正悄然兴起，而这一切的源头，正是OpenAI最新推出的GPT-4.1模型。这款模型的发布，不仅直接挑战了Anthropic、Google和xAI…

王浩然
2025年4月15日
000
AI前沿

禁止勒索软件支付是打击网络犯罪的关键吗？

勒索软件是一种威胁全球组织的无情威胁。犯罪分子精心计算他们的要求，以最大限度地提高付款的可能性，目标是那些最不能承受长期中断的组织。英国政府的新提案可能会大大减少针对其公共服务的威…

王浩然
2025年1月29日
000
AI前沿

AI时代版权法的转向：在变革中重塑创作边界

当生成式AI以惊人的速度渗透进创意产业的各个角落，全球法律体系正被推向一个版权法的关键转折点——这个转折点的核心，是重新追问一个被沿用了数百年的基础问题：究竟什么才是“作者”？过…

王浩然
2026年1月25日
000

发表回复

Please Login to Comment

Databricks开源声明式ETL框架，加速数据管道构建90%‌

相关推荐

发表回复