“data-lineage”的相关标签问题

0 投票

1 回答

998 浏览

hadoop - 如何在 Hadoop 上实现数据沿袭？

我们在金融领域实施了一些业务流程。监管机构的要求（不幸的是，不是很具体）是为了审计目的而拥有数据沿袭。

该流程包含两部分：同步和异步。同步部分是包含有关销售点、客户和商品的大量信息的付款尝试。异步部分是一个批处理过程，它每小时向信用评估数据模型提供新计算的变量部分。这些变量可能包括一些聚合，如余额和与历史交易的链接。

为了计算异步部分，我们从多个关系数据库中提取数据，并将它们以原始格式存储在 HDFS 中（csv 格式的表中的行）。

当在 HDFS 上存储数据时，会触发基于 Spring XD 计算一些聚合并为同步部分生成数据的工作。

我们有关系数据、HDFS 上的原始数据和依赖于 POJO 的 MapReduce 作业，这些 POJO 描述了 SpringXD 中实现的相关语义和转换。

那么，问题是如何处理上述场景中的审计？我们需要在任何时间点能够解释为什么做出特定决定，并且能够解释策略中使用的每个变量（同步或近实时流）是如何计算的。

我查看了现有的 Hadoop 堆栈，看起来目前没有工具可以提供良好的企业级审计功能。

我的想法是从客户实施开始，包括>

包含所有业务术语的业务词汇表
操作和技术元数据 - 将每个条目的转换执行记录到单独的存储中。
记录对业务逻辑的更改（使用保存业务规则和转换的版本控制中的数据）。

任何建议或分享您的经验将不胜感激！

2016-05-30T14:28:02.440

0 投票

1 回答

357 浏览

oracle11g - 列级数据沿袭

我有一个存储过程，它从表 X 和 Y 创建表 Z，如下所示。

我需要一个沿袭工具，它不仅将表 X,Y 映射到 Z，而且还将 Z.1 映射到 X.1，Z.3 映射到 X2 和 Y2，“虚拟”映射到 Z.6 及以后。

是否有任何工具（免费或许可）可以进行此列级映射？

oracle11g reverse-engineering data-lineage

2016-06-30T06:12:17.270

0 投票

2 回答

426 浏览

neo4j - 有没有办法通过 Neo4j Cypher 查询来跟踪端到端数据沿袭？

我正在使用 Spring-Data 和 SpringBoot 来填充我的 Neo4j 图形数据库。

我定义了以下 Neo4j 实体：

Source实体 -->

Field实体-->

所以，一个Source CONTAINS倍数Fields。而aField是MAPS-TO一个或多个其他Fields。

每个Source都是一个SourceType。

我的不同SourceType是：生产者、入境、分期、中间、出境、消费者。

每个Field都是一个FieldType。

我不同FieldType的是：FILE_FIELD、DB_COLUMN。

我的数据沿袭如下：生产者 --> 入站 --> 分期 --> 中间 --> 出站 --> 消费者

我现在正在寻找一个高级 Cypher 查询，如果我Field在 CONSUMER中提供一个Source，我可以通过它追踪它的沿袭直到PRODUCER Source。

同样，我也在寻找一个查询，如果我Field在 PRODUCER中提供一个查询Source，我可以向前跟踪它的沿袭直到 CONSUMER Source。

我尝试使用shortestPathandneighbors函数构建查询，但它似乎没有提取我正在寻找的结果。

任何建议/指针将不胜感激。

提前致谢！

更新-1

我的数据沿袭背景：我的应用程序从外部应用程序 (PRODUCE) 获取文件。我知道哪些数据库表/外部应用程序的列填充了文件中的字段。所以在这里，PRODUCER 将是我的Source节点；外部应用程序（填充文件）的每个 table.column 是一个Field节点，PRODUCERSource节点将CONTAINS与所有Field节点（代表填充文件的外部应用程序数据库表的 table.column）有关系。

来自外部应用程序的文件称为 INBOUND。它是一个逗号分隔的文件。我知道文件中的字段名称和顺序是什么。所以在这里，INBOUND 将是我的Source节点；文件中的每个字段都是一个Field节点，而 INBOUNDSource节点将CONTAINS与所有Field节点有关系（代表入站文件中的文件字段）。此外Field，INBOUND 的每个节点都将与PRODUCER 的一个节点Source有MAPS_TO关系（一对一映射）。FieldSource

继续进行类似的工作流程，我的下一个阶段称为 STAGING，其中我将入站文件字段加载到我的数据库表/列中。所以在这里，STAGING 将是我的Source节点，数据库表的每一列（我将文件字段加载到其中）将代表一个Field节点。FieldSTAGING Source 节点将与所有节点（代表我将文件字段加载到其中的 db 表的 db table.column）具有 CONTAINS 关系。FieldSTAGING的每个节点也将与 INBOUND 的节点Source有MAPS_TO关系（一对一映射）。FieldSource

类似的，我的下一个阶段是中级。在这个阶段，我正在查询加载输入文件字段的表，然后将输出刷新到另一个文件中（根据我的业务用例，我可能选择查询所有或仅查询表列的子集从输入文件填充）。我知道哪些字段以及以什么顺序进入我的中间文件。所以在这里，中间是我的Source节点，进入中间文件的每个字段都代表我的Field节点。INTERMEDIATE也将与代表中间文件中的字段的所有节点Source有CONTAINS关系。Field此外，这些Field节点中的每一个都将MAPS_TO与 STAGING Source 的字段（一对一映射）有关系。

同样，我有 OUTBOUND 阶段，最后是 CONSUMER 阶段。

...（我希望你现在能够形象化血统）

例如，我的查询目标是，如果我给出一个Field名称（代表 PRODUCER 的 table.column）作为输入，那么我应该能够追踪它的沿袭直到 CONSUMER（即，我的沿袭的最后阶段）。

neo4j path spring-data cypher data-lineage

2016-11-21T16:35:01.243

0 投票

2 回答

4566 浏览

amazon-web-services - 如何查看元数据、存储在 AWS redshift 中的数据沿袭？

我正在使用cloudera navigator、atlas和Wherehows等解决方案

获取 Hadoop、HDFS、HIVE、SQOOP、MAPREDUCE 元数据和沿袭。

现在我们在 AWS redshift 中也有一个数据仓库。有没有办法从红移中提取元数据或血统或两者信息。

到目前为止，我还没有找到任何关于此的内容。

有没有办法将其与爬网解决方案集成到 wherehows 中？

我发现只有一篇文章提供了一些关于如何从 redshift 获取一些信息的信息，假设它类似于 postgresql。我相信有人会为这个问题编写一些开源解决方案。还是只需要编写一个简单的脚本来提取这些信息？我正在寻找企业级解决方案。我希望有人能指出我正确的方向。

amazon-web-services amazon-redshift hadoop2 database-metadata data-lineage

2017-05-27T14:58:57.160

0 投票

1 回答

691 浏览

airflow - Airflow 中 Dependent Dags 之间的任务沿袭

我们计划每天使用Airflow运行许多 DAG 。已使用 ExternalTaskSensor、TriggerDagRunOperator 和自定义运算符启用依赖项

样本：

DAG A 中的任务 1 依赖于 DAG B 中的任务 2 DAG A
中的任务 3 依赖于 DAG C 中的
任务 4 DAG A 中的任务 5 依赖于 DAG D 中的任务 6
...

DAG B 中的任务 2 依赖于 DAG E 中的任务 7
DAG B 中的任务 4 依赖于 DAG F 中的任务 8 ...

在 UI 中查看 Task Instance 详细信息时，仅显示属于同一 dag 的下游任务 ID 和上游任务 ID。

我们如何才能看到单个任务跨多个 DAG 到最后可用级别的完整沿袭？

airflow data-lineage

2017-06-16T06:53:35.013

0 投票

4 回答

18467 浏览

apache-spark - Spark 中的血统是什么？

沿袭如何帮助重新计算数据？

例如，我有几个节点每个节点计算 30 分钟的数据。如果一个在 15 分钟后失败，我们是否可以再次使用 lineage 重新计算 15 分钟内处理的数据，而无需再次给出 15 分钟？

apache-spark hadoop data-lineage

2017-08-18T07:40:00.840

0 投票

0 回答

325 浏览

sql - SQL Server 2014：列依赖关系/沿袭

我想知道表或视图的哪些列是我当前视图中列的一部分。

对于“基本”版本，我使用当前视图的列，我使用sys.views和sys.dm_sql_referenced_entities...以及其他一些系统目录视图。

结果：

我想得到的是这样的：

有人可以帮我解决这个问题吗？

sql dependencies sql-server-2014 data-lineage

2017-09-06T13:01:24.950

0 投票

1 回答

572 浏览

hadoop - 从 Spark 日志中获取数据沿袭

我正在探索从 Spark Logs for Spark 程序中获取数据沿袭信息的选项。

我正在寻找诸如哪些 kafka 主题或 Tables Spark 程序读取或写入之类的信息，以便我们可以获得该信息的运行时间并构建端到端的数据移动流。有没有人探索过这样的框架。

当我设置 Info 日志级别时，我可以获得有关输入 kafka 读取和写入哪些数据的表的信息，但是，如果数据被发送到 Kafka 主题或输入表读取，我不会获得信息。

任何帮助表示赞赏。

感谢和问候。

hadoop apache-spark hdfs data-lineage

2017-11-12T23:00:47.177

0 投票

1 回答

3364 浏览

sql-server - SQL Server 中的数据沿袭

客观的：

让我们考虑一个大型企业，我们拥有异构数据存储，例如 SQL 服务器、No-SQL 存储、ADL、ADF 等大数据存储，分布在不同的业务组中。

我们的目标是在企业级别构建沿袭服务，这将提供有关企业内不同数据存储实例之间的数据沿袭的见解。这将有助于我们深入了解企业内的数据扩散。

为此，作为第 1 阶段，我们希望采用 SQL 服务器，并希望在 SQL 服务器和它的数据库内和跨 SQL 服务器建立血统。

有没有一种方法可以通过利用实例内部或跨实例的 SQL 分析或事务日志从 SQL 服务器构建/提取（如果可用）数据沿袭（表和列级别）。

我查看了确定影响和数据沿袭，看起来 SQL 服务器应该启用依赖服务。

作为企业级服务，我可能有权访问 SQL Server，并且可能无法控制启用任何服务的 sql server 实例。

任何人都可以分享有关在 SQL Server 内部或跨 SQL Server 构建或提取数据沿袭的任何见解或经验。

提前致谢！

迈丁

sql-server tsql ssis data-lineage

2018-02-16T07:19:13.753

0 投票

0 回答

65 浏览

business-intelligence - 是否有数据沿袭图的最佳实践指南和注释

我正在寻找一个数据沿袭图，显示我们的一些数据在不同系统和流程中的来源和移动，并发现没有一个看起来相同的数据沿袭图。我只是想知道那里是否有最佳实践？似乎也缺乏关于它的信息，所以也许它有一个更流行的名字？

谢谢

business-intelligence diagram data-lineage

2018-04-05T11:04:02.937

问题标签 [data-lineage]

Reference