问题标签 [data-lineage]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如何在 Hadoop 上实现数据沿袭?
我们在金融领域实施了一些业务流程。监管机构的要求(不幸的是,不是很具体)是为了审计目的而拥有数据沿袭。
该流程包含两部分:同步和异步。同步部分是包含有关销售点、客户和商品的大量信息的付款尝试。异步部分是一个批处理过程,它每小时向信用评估数据模型提供新计算的变量部分。这些变量可能包括一些聚合,如余额和与历史交易的链接。
为了计算异步部分,我们从多个关系数据库中提取数据,并将它们以原始格式存储在 HDFS 中(csv 格式的表中的行)。
当在 HDFS 上存储数据时,会触发基于 Spring XD 计算一些聚合并为同步部分生成数据的工作。
我们有关系数据、HDFS 上的原始数据和依赖于 POJO 的 MapReduce 作业,这些 POJO 描述了 SpringXD 中实现的相关语义和转换。
那么,问题是如何处理上述场景中的审计?我们需要在任何时间点能够解释为什么做出特定决定,并且能够解释策略中使用的每个变量(同步或近实时流)是如何计算的。
我查看了现有的 Hadoop 堆栈,看起来目前没有工具可以提供良好的企业级审计功能。
我的想法是从客户实施开始,包括>
- 包含所有业务术语的业务词汇表
- 操作和技术元数据 - 将每个条目的转换执行记录到单独的存储中。
- 记录对业务逻辑的更改(使用保存业务规则和转换的版本控制中的数据)。
任何建议或分享您的经验将不胜感激!
oracle11g - 列级数据沿袭
我有一个存储过程,它从表 X 和 Y 创建表 Z,如下所示。
我需要一个沿袭工具,它不仅将表 X,Y 映射到 Z,而且还将 Z.1 映射到 X.1,Z.3 映射到 X2 和 Y2,“虚拟”映射到 Z.6 及以后。
是否有任何工具(免费或许可)可以进行此列级映射?
neo4j - 有没有办法通过 Neo4j Cypher 查询来跟踪端到端数据沿袭?
我正在使用 Spring-Data 和 SpringBoot 来填充我的 Neo4j 图形数据库。
我定义了以下 Neo4j 实体:
Source
实体 -->
Field
实体-->
所以,一个Source
CONTAINS
倍数Field
s。而aField
是MAPS-TO
一个或多个其他Field
s。
每个Source
都是一个SourceType
。
我的不同SourceType
是:生产者、入境、分期、中间、出境、消费者。
每个Field
都是一个FieldType
。
我不同FieldType
的是:FILE_FIELD、DB_COLUMN。
我的数据沿袭如下:生产者 --> 入站 --> 分期 --> 中间 --> 出站 --> 消费者
我现在正在寻找一个高级 Cypher 查询,如果我Field
在 CONSUMER中提供一个Source
,我可以通过它追踪它的沿袭直到PRODUCER Source
。
同样,我也在寻找一个查询,如果我Field
在 PRODUCER中提供一个查询Source
,我可以向前跟踪它的沿袭直到 CONSUMER Source
。
我尝试使用shortestPath
andneighbors
函数构建查询,但它似乎没有提取我正在寻找的结果。
任何建议/指针将不胜感激。
提前致谢 !
更新-1
我的数据沿袭背景:我的应用程序从外部应用程序 (PRODUCE) 获取文件。我知道哪些数据库表/外部应用程序的列填充了文件中的字段。所以在这里,PRODUCER 将是我的Source
节点;外部应用程序(填充文件)的每个 table.column 是一个Field
节点,PRODUCERSource
节点将CONTAINS
与所有Field
节点(代表填充文件的外部应用程序数据库表的 table.column)有关系。
来自外部应用程序的文件称为 INBOUND。它是一个逗号分隔的文件。我知道文件中的字段名称和顺序是什么。所以在这里,INBOUND 将是我的Source
节点;文件中的每个字段都是一个Field
节点,而 INBOUNDSource
节点将CONTAINS
与所有Field
节点有关系(代表入站文件中的文件字段)。此外Field
,INBOUND 的每个节点都将与PRODUCER 的一个节点Source
有MAPS_TO
关系(一对一映射)。Field
Source
继续进行类似的工作流程,我的下一个阶段称为 STAGING,其中我将入站文件字段加载到我的数据库表/列中。所以在这里,STAGING 将是我的Source
节点,数据库表的每一列(我将文件字段加载到其中)将代表一个Field
节点。Field
STAGING Source 节点将与所有节点(代表我将文件字段加载到其中的 db 表的 db table.column)具有 CONTAINS 关系。Field
STAGING的每个节点也将与 INBOUND 的节点Source
有MAPS_TO
关系(一对一映射)。Field
Source
类似的,我的下一个阶段是中级。在这个阶段,我正在查询加载输入文件字段的表,然后将输出刷新到另一个文件中(根据我的业务用例,我可能选择查询所有或仅查询表列的子集从输入文件填充)。我知道哪些字段以及以什么顺序进入我的中间文件。所以在这里,中间是我的Source
节点,进入中间文件的每个字段都代表我的Field
节点。INTERMEDIATE也将与代表中间文件中的字段的所有节点Source
有CONTAINS
关系。Field
此外,这些Field
节点中的每一个都将MAPS_TO
与 STAGING Source 的字段(一对一映射)有关系。
同样,我有 OUTBOUND 阶段,最后是 CONSUMER 阶段。
...(我希望你现在能够形象化血统)
例如,我的查询目标是,如果我给出一个Field
名称(代表 PRODUCER 的 table.column)作为输入,那么我应该能够追踪它的沿袭直到 CONSUMER(即,我的沿袭的最后阶段)。
amazon-web-services - 如何查看元数据、存储在 AWS redshift 中的数据沿袭?
我正在使用cloudera navigator、atlas和Wherehows等解决方案
获取 Hadoop、HDFS、HIVE、SQOOP、MAPREDUCE 元数据和沿袭。
现在我们在 AWS redshift 中也有一个数据仓库。有没有办法从红移中提取元数据或血统或两者信息。
到目前为止,我还没有找到任何关于此的内容。
有没有办法将其与爬网解决方案集成到 wherehows 中?
我发现只有一篇文章提供了一些关于如何从 redshift 获取一些信息的信息,假设它类似于 postgresql。我相信有人会为这个问题编写一些开源解决方案。还是只需要编写一个简单的脚本来提取这些信息?我正在寻找企业级解决方案。我希望有人能指出我正确的方向。
airflow - Airflow 中 Dependent Dags 之间的任务沿袭
我们计划每天使用Airflow运行许多 DAG 。已使用 ExternalTaskSensor、TriggerDagRunOperator 和自定义运算符启用依赖项
样本:
DAG A 中的任务 1 依赖于 DAG B 中的任务 2 DAG A
中的任务 3 依赖于 DAG C 中的
任务 4 DAG A 中的任务 5 依赖于 DAG D 中的任务 6
...
DAG B 中的任务 2 依赖于 DAG E 中的任务 7
DAG B 中的任务 4 依赖于 DAG F 中的任务 8 ...
在 UI 中查看 Task Instance 详细信息时,仅显示属于同一 dag 的下游任务 ID 和上游任务 ID。
我们如何才能看到单个任务跨多个 DAG 到最后可用级别的完整沿袭?
apache-spark - Spark 中的血统是什么?
沿袭如何帮助重新计算数据?
例如,我有几个节点每个节点计算 30 分钟的数据。如果一个在 15 分钟后失败,我们是否可以再次使用 lineage 重新计算 15 分钟内处理的数据,而无需再次给出 15 分钟?
sql - SQL Server 2014:列依赖关系/沿袭
我想知道表或视图的哪些列是我当前视图中列的一部分。
对于“基本”版本,我使用当前视图的列,我使用sys.views
和sys.dm_sql_referenced_entities
...以及其他一些系统目录视图。
结果:
我想得到的是这样的:
有人可以帮我解决这个问题吗?
hadoop - 从 Spark 日志中获取数据沿袭
我正在探索从 Spark Logs for Spark 程序中获取数据沿袭信息的选项。
我正在寻找诸如哪些 kafka 主题或 Tables Spark 程序读取或写入之类的信息,以便我们可以获得该信息的运行时间并构建端到端的数据移动流。有没有人探索过这样的框架。
当我设置 Info 日志级别时,我可以获得有关输入 kafka 读取和写入哪些数据的表的信息,但是,如果数据被发送到 Kafka 主题或输入表读取,我不会获得信息。
任何帮助表示赞赏。
感谢和问候。
sql-server - SQL Server 中的数据沿袭
客观的 :
让我们考虑一个大型企业,我们拥有异构数据存储,例如 SQL 服务器、No-SQL 存储、ADL、ADF 等大数据存储,分布在不同的业务组中。
我们的目标是在企业级别构建沿袭服务,这将提供有关企业内不同数据存储实例之间的数据沿袭的见解。这将有助于我们深入了解企业内的数据扩散。
为此,作为第 1 阶段,我们希望采用 SQL 服务器,并希望在 SQL 服务器和它的数据库内和跨 SQL 服务器建立血统。
有没有一种方法可以通过利用实例内部或跨实例的 SQL 分析或事务日志从 SQL 服务器构建/提取(如果可用)数据沿袭(表和列级别)。
我查看了确定影响和数据沿袭,看起来 SQL 服务器应该启用依赖服务。
作为企业级服务,我可能有权访问 SQL Server,并且可能无法控制启用任何服务的 sql server 实例。
任何人都可以分享有关在 SQL Server 内部或跨 SQL Server 构建或提取数据沿袭的任何见解或经验。
提前致谢 !
迈丁
business-intelligence - 是否有数据沿袭图的最佳实践指南和注释
我正在寻找一个数据沿袭图,显示我们的一些数据在不同系统和流程中的来源和移动,并发现没有一个看起来相同的数据沿袭图。我只是想知道那里是否有最佳实践?似乎也缺乏关于它的信息,所以也许它有一个更流行的名字?
谢谢