问题标签 [data-lineage]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
998 浏览

hadoop - 如何在 Hadoop 上实现数据沿袭?

我们在金融领域实施了一些业务流程。监管机构的要求(不幸的是,不是很具体)是为了审计目的而拥有数据沿袭。

该流程包含两部分:同步和异步。同步部分是包含有关销售点、客户和商品的大量信息的付款尝试。异步部分是一个批处理过程,它每小时向信用评估数据模型提供新计算的变量部分。这些变量可能包括一些聚合,如余额和与历史交易的链接。

为了计算异步部分,我们从多个关系数据库中提取数据,并将它们以原始格式存储在 HDFS 中(csv 格式的表中的行)。

当在 HDFS 上存储数据时,会触发基于 Spring XD 计算一些聚合并为同步部分生成数据的工作。

我们有关系数据、HDFS 上的原始数据和依赖于 POJO 的 MapReduce 作业,这些 POJO 描述了 SpringXD 中实现的相关语义和转换。

那么,问题是如何处理上述场景中的审计?我们需要在任何时间点能够解释为什么做出特定决定,并且能够解释策略中使用的每个变量(同步或近实时流)是如何计算的。

我查看了现有的 Hadoop 堆栈,看起来目前没有工具可以提供良好的企业级审计功能。

我的想法是从客户实施开始,包括>

  1. 包含所有业务术语的业务词汇表
  2. 操作和技术元数据 - 将每个条目的转换执行记录到单独的存储中。
  3. 记录对业务逻辑的更改(使用保存业务规则和转换的版本控制中的数据)。

任何建议或分享您的经验将不胜感激!

0 投票
1 回答
357 浏览

oracle11g - 列级数据沿袭

我有一个存储过程,它从表 X 和 Y 创建表 Z,如下所示。

我需要一个沿袭工具,它不仅将表 X,Y 映射到 Z,而且还将 Z.1 映射到 X.1,Z.3 映射到 X2 和 Y2,“虚拟”映射到 Z.6 及以后。

是否有任何工具(免费或许可)可以进行此列级映射?

0 投票
2 回答
426 浏览

neo4j - 有没有办法通过 Neo4j Cypher 查询来跟踪端到端数据沿袭?

我正在使用 Spring-Data 和 SpringBoot 来填充我的 Neo4j 图形数据库。

我定义了以下 Neo4j 实体:

Source实体 -->

Field实体-->

所以,一个Source CONTAINS倍数Fields。而aFieldMAPS-TO一个或多个其他Fields。

每个Source都是一个SourceType

我的不同SourceType是:生产者、入境、分期、中间、出境、消费者。

每个Field都是一个FieldType

我不同FieldType的是:FILE_FIELD、DB_COLUMN。

我的数据沿袭如下:生产者 --> 入站 --> 分期 --> 中间 --> 出站 --> 消费者

我现在正在寻找一个高级 Cypher 查询,如果我Field在 CONSUMER中提供一个Source,我可以通过它追踪它的沿袭直到PRODUCER Source

同样,我也在寻找一个查询,如果我Field在 PRODUCER中提供一个查询Source,我可以向前跟踪它的沿袭直到 CONSUMER Source

我尝试使用shortestPathandneighbors函数构建查询,但它似乎没有提取我正在寻找的结果。

任何建议/指针将不胜感激。

提前致谢 !

更新-1

我的数据沿袭背景:我的应用程序从外部应用程序 (PRODUCE) 获取文件。我知道哪些数据库表/外部应用程序的列填充了文件中的字段。所以在这里,PRODUCER 将是我的Source节点;外部应用程序(填充文件)的每个 table.column 是一个Field节点,PRODUCERSource节点将CONTAINS与所有Field节点(代表填充文件的外部应用程序数据库表的 table.column)有关系。

来自外部应用程序的文件称为 INBOUND。它是一个逗号分隔的文件。我知道文件中的字段名称和顺序是什么。所以在这里,INBOUND 将是我的Source节点;文件中的每个字段都是一个Field节点,而 INBOUNDSource节点将CONTAINS与所有Field节点有关系(代表入站文件中的文件字段)。此外Field,INBOUND 的每个节点都将与PRODUCER 的一个节点SourceMAPS_TO关系(一对一映射)。FieldSource

继续进行类似的工作流程,我的下一个阶段称为 STAGING,其中我将入站文件字段加载到我的数据库表/列中。所以在这里,STAGING 将是我的Source节点,数据库表的每一列(我将文件字段加载到其中)将代表一个Field节点。FieldSTAGING Source 节点将与所有节点(代表我将文件字段加载到其中的 db 表的 db table.column)具有 CONTAINS 关系。FieldSTAGING的每个节点也将与 INBOUND 的节点SourceMAPS_TO关系(一对一映射)。FieldSource

类似的,我的下一个阶段是中级。在这个阶段,我正在查询加载输入文件字段的表,然后将输出刷新到另一个文件中(根据我的业务用例,我可能选择查询所有或仅查询表列的子集从输入文件填充)。我知道哪些字段以及以什么顺序进入我的中间文件。所以在这里,中间是我的Source节点,进入中间文件的每个字段都代表我的Field节点。INTERMEDIATE也将与代表中间文件中的字段的所有节点SourceCONTAINS关系。Field此外,这些Field节点中的每一个都将MAPS_TO与 STAGING Source 的字段(一对一映射)有关系。

同样,我有 OUTBOUND 阶段,最后是 CONSUMER 阶段。

...(我希望你现在能够形象化血统)

例如,我的查询目标是,如果我给出一个Field名称(代表 PRODUCER 的 table.column)作为输入,那么我应该能够追踪它的沿袭直到 CONSUMER(即,我的沿袭的最后阶段)。

0 投票
2 回答
4566 浏览

amazon-web-services - 如何查看元数据、存储在 AWS redshift 中的数据沿袭?

我正在使用cloudera navigatoratlasWherehows等解决方案

获取 Hadoop、HDFS、HIVE、SQOOP、MAPREDUCE 元数据和沿袭。

现在我们在 AWS redshift 中也有一个数据仓库。有没有办法从红移中提取元数据或血统或两者信息。

到目前为止,我还没有找到任何关于此的内容。

有没有办法将其与爬网解决方案集成到 wherehows 中?

我发现只有一篇文章提供了一些关于如何从 redshift 获取一些信息的信息,假设它类似于 postgresql。我相信有人会为这个问题编写一些开源解决方案。还是只需要编写一个简单的脚本来提取这些信息?我正在寻找企业级解决方案。我希望有人能指出我正确的方向。

0 投票
1 回答
691 浏览

airflow - Airflow 中 Dependent Dags 之间的任务沿袭

我们计划每天使用Airflow运行许多 DAG 。已使用 ExternalTask​​Sensor、TriggerDagRunOperator 和自定义运算符启用依赖项

样本:

DAG A 中的任务 1 依赖于 DAG B 中的任务 2 DAG A
中的任务 3 依赖于 DAG C 中的
任务 4 DAG A 中的任务 5 依赖于 DAG D 中的任务 6
...

DAG B 中的任务 2 依赖于 DAG E 中的任务 7
DAG B 中的任务 4 依赖于 DAG F 中的任务 8 ...

在 UI 中查看 Task Instance 详细信息时,仅显示属于同一 dag 的下游任务 ID 和上游任务 ID。

我们如何才能看到单个任务跨多个 DAG 到最后可用级别的完整沿袭?

0 投票
4 回答
18467 浏览

apache-spark - Spark 中的血统是什么?

沿袭如何帮助重新计算数据?

例如,我有几个节点每个节点计算 30 分钟的数据。如果一个在 15 分钟后失败,我们是否可以再次使用 lineage 重新计算 15 分钟内处理的数据,而无需再次给出 15 分钟?

0 投票
0 回答
325 浏览

sql - SQL Server 2014:列依赖关系/沿袭

我想知道表或视图的哪些列是我当前视图中列的一部分。

对于“基本”版本,我使用当前视图的列,我使用sys.viewssys.dm_sql_referenced_entities...以及其他一些系统目录视图。

结果:

我想得到的是这样的:

有人可以帮我解决这个问题吗?

0 投票
1 回答
572 浏览

hadoop - 从 Spark 日志中获取数据沿袭

我正在探索从 Spark Logs for Spark 程序中获取数据沿袭信息的选项。

我正在寻找诸如哪些 kafka 主题或 Tables Spark 程序读取或写入之类的信息,以便我们可以获得该信息的运行时间并构建端到端的数据移动流。有没有人探索过这样的框架。

当我设置 Info 日志级别时,我可以获得有关输入 kafka 读取和写入哪些数据的表的信息,但是,如果数据被发送到 Kafka 主题或输入表读取,我不会获得信息。

任何帮助表示赞赏。

感谢和问候。

0 投票
1 回答
3364 浏览

sql-server - SQL Server 中的数据沿袭

客观的 :

让我们考虑一个大型企业,我们拥有异构数据存储,例如 SQL 服务器、No-SQL 存储、ADL、ADF 等大数据存储,分布在不同的业务组中。

我们的目标是在企业级别构建沿袭服务,这将提供有关企业内不同数据存储实例之间的数据沿袭的见解。这将有助于我们深入了解企业内的数据扩散。

为此,作为第 1 阶段,我们希望采用 SQL 服务器,并希望在 SQL 服务器和它的数据库内和跨 SQL 服务器建立血统。

有没有一种方法可以通过利用实例内部或跨实例的 SQL 分析或事务日志从 SQL 服务器构建/提取(如果可用)数据沿袭(表和列级别)。

我查看了确定影响和数据沿袭,看起来 SQL 服务器应该启用依赖服务。

作为企业级服务,我可能有权访问 SQL Server,并且可能无法控制启用任何服务的 sql server 实例。

任何人都可以分享有关在 SQL Server 内部或跨 SQL Server 构建或提取数据沿袭的任何见解或经验。

提前致谢 !

迈丁

0 投票
0 回答
65 浏览

business-intelligence - 是否有数据沿袭图的最佳实践指南和注释

我正在寻找一个数据沿袭图,显示我们的一些数据在不同系统和流程中的来源和移动,并发现没有一个看起来相同的数据沿袭图。我只是想知道那里是否有最佳实践?似乎也缺乏关于它的信息,所以也许它有一个更流行的名字?

谢谢