最近,Delta Lake 发布了一项新功能,也就是支持直接使用 Scala、Java 或者 Python 来查询 Delta Lake 里面的数据,这个是不需要通过 Spark 引擎来实现的。Scala 和 Java 读取 Delta Lake 里面的数据是通过 Delta Standalone Reader[1] 实现的;而 Python 则是通过 Delta Rust
Delta Lake 是經過優化的儲存層,為 Databricks 平台上的 lakehouse 中的資料表奠定基礎。 Delta Lake 是 開放原始碼 軟體,其會使用以檔案為基礎的事務歷史記錄來擴充 Parquet 數據檔,以進行 ACID 交易和可調整的元數據處理。 Delta Lake 與 Apache Spark API 完全相容,且已針對與結構化串流緊密整合而開發,可讓您...
引入delta-rs的主要原因是避免启动一个很重的spark应用,而是把大部分计算资源预留给E TL和交互式查询使用,而且算法任务中希望通过python直接消费数据,delta-rs刚好提供了这样的能力。相比spark,他有更好的读取性能。不过缺点是对写入支持不完善,存在bug,我们也对社区提了一些优化。 Standalone Reader 是一个java库,...
Delta lake1.0提供的第二个重要特性是Standalone。它的目标是可以在Spark之外对接更多引擎,但是诸如Presto、Flink等引擎本身并不需要依赖Spark,如果Delta lake只能强绑定Spark就违背了Delta lake开放性的目标。 于是社区推出了Standalone,它在jvm层面实现了对Delta lake事务协议的处理。有了Standalone,后面会有更多引擎接入...
Delta Lake 概述 教程 最佳做法 操作 数据布局 历史记录和数据保留 架构强制实施和演变 表格功能 表属性参考 优化和性能 Apache Spark 开发人员 技术合作伙伴 管理 安全性和合规性 数据管理 (Unity Catalog) 参考 发行说明 资源 自动启用删除向量 使用Unity 目录管理对云存储的访问 ...
Standalone Reader 是一个java库,可以比较方便的读取数据、和schema。不过这个项目感觉缺乏维护,存在一些bug。也不支持sql查询和写入。使用场景比较有限,比如说数据集的简单预览等。我们也对这个项目做了一些修复。 时间旅行,也叫 time travel,指的是对数据多版本的支持。给大家介绍一个算法实验中的场景,比如我们的算...
Gitee 极速下载/Delta-Lake 代码Wiki统计流水线 服务 我知道了,不再自动展开 加入Gitee 与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :) 免费加入 已有帐号?立即登录 此仓库是为了提升国内下载速度的镜像仓库,每日同步一次。 原始仓库:https://github.com/delta-io/delta ...
在0.4.0 版本之前,Delta Lake 只支持 Scala 和 Java API。为了能够在 Python 中使用 Delta Lake,这个版本引入了 Python API(具体可以参见 https:///delta-io/delta/issues/89),可以用它在 Delta Lake 表来进行 update\delete\merge 等操作。 我们还可以使用这个 Python API 运行一些实用操作,比如 vacuum、hist...
pyspark deltalake Updated Sep 5, 2024 Python japila-books / delta-lake-internals Star 184 Code Issues Pull requests Discussions The Internals of Delta Lake books book internals datalake delta-lake deltalake Updated Jan 12, 2025 smart...
Delta Standalone: This library allows Scala and Java-based projects (including Apache Flink, Apache Hive, Apache Beam, and PrestoDB) to read from and write to Delta Lake. Apache Hive: This connector allows Apache Hive to read from Delta Lake. Delta Rust API: This library allows Rust (with...