Atlas 有专门的 shell 脚本可以直接运行读取 Hive 的表结构等元数据信息同步到 Atlas 的存储库中,自动生成元数据模型,同时 Atlas 提供的 HiveHook 可以监听 Hive 的数据变化,根据 Hive 执行的 sql 推断出数据与数据之间的关系,生成血缘关系图,如果我们想要分析其他数据存储介质的元数据和血缘关系,Atlas 的支持并不...
Apache Spark Atlas Connector(SAC)是一个开源项目,用于将Apache Spark与Apache Atlas集成,以解决通过Spark作业跟踪数据血缘和数据访问来源的问题。SAC支持批处理作业、SQL查询、流处理、机器学习以及所有支持的语言,如Scala、Python和R。 数据治理 数据质量:通过Shell + SQL(Hive/Impala)进行数据质量检查。 数据安全:使...
是目前活跃度较高的捕获 Spark 数据血缘的开源项目,但是它与 Atlas 兼容性不好,而是自成一体,但是该项目对于 Spark 的兼容性非常好。 本篇作者 杨帅军 资深数据架构师 专注于数据处理。目前主要为车企提供数据治理服务。
vim atlas-application.properties### Notification Configs ###atlas.notification.embedded=falseatlas.kafka.data=${sys:atlas.home}/data/kafkaatlas.kafka.zookeeper.connect=cdh02:2181,cdh03:2181,cdh01:2181/kafkaatlas.kafka.bootstrap.servers=cdh02:9092,cdh03:9092,cdh04:9092atlas.kafka.zookeeper.session....
/Path/to/apache-atlas-sources-1.0.0/distro/target/apache-atlas-1.0.0-bin/apache-atlas-1.0.0 因为我按照官网的提示,实际上是并没有 atlas-${project.version} (version 是指你安装的版本)这个文件的。 代码语言:javascript 代码运行次数:0 运行 ...
1、atlas的spark-connector 实现,可以参考:https://github.com/597365581/spark-atlas-connector 2、spline-spark-agent 也可以解决spark的血缘关系,可以参考:https://github.com/597365581/spline-spark-agent 一、架构 整体架构实现如下图所示: Type System: Atlas allows users to define a model for the metadata...
Apache Atlas虽然内嵌了Hive/Hbase/Sqoop/Storm/Falcon/Kafka的hook,但是除此之外的其他处理引擎的plugin极少,例如目前广泛使用的Spark/Flink,如果使用这两个计算引擎处理数据,则需要进行定制开发才能捕获相关的数据血缘。 五. 手工捕获数据 Apache Atlas是一个典型的类型继承系统,在追加无法通过Atlas hook或者plugin自动捕...
Apache Atlas 是一套可伸缩且可扩展的数据治理服务,提供了开放的元数据管理和治理能力。它能够自动发现和创建数据资产及其血缘关系。但是,在使用 Apache Atlas 时,有时会遇到 Hive 库 Alter 语句不更新元数据的问题。当在 Hive 库中执行 ALTER TABLE 语句,如添加新列时,虽然 Hive 库的元数据库如 MySQL 中...
bin/atlas_start.py 访问host:21000,账号和密码都是admin 5.2 初始化元数据 执行import-hive.sh脚本会自动把hive仓库里的表信息同步到Atlas,只需一次同步即可,后续hive sql操作Atlas会自动监听并记录下来。 cd hook-bin shimport-hive.sh 5.3 增量同步
以下Flink SQL注册并使用名为my_hive的Paimon Hive catalog,元数据和表文件存储在hdfs:///path/to/warehouse下,元数据也存储在Hive metastore中。 如果Hive需要security authentication,如Kerberos、LDAP、Ranger,或者希望paimon表由Apache Atlas管理(在hive-site.xml中设置"hive.metastore.event.listeners"),可以在hive-...