问题标签 [data-lineage]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
434 浏览

neo4j - Modelling graph in Neo4j showing workflow and impact

New to Neo4j but can see so many possibilities in graph databases, in particular IT data workflow and system impact. But unsure of the correct design for maximum efficiency.

Consider a system that takes in files, processes them, stores them in database and makes data available in various reports. However, depending on the file, the data may be in one report, but not the other.

System Architecture and Reality

An important use case is to be able to report the impact on downstream reports if upstream files are missing or components that process those files fail.

Test Cases

I have come up with 4 designs, 3 of which seem to work, but unsure which is best.

Design 1

Design 2

Design 3

Design 4

Would appreciate any help or advice on this.

Code used:

Following recommendation, have expanded Design 1 to include a direct link between File and Report.

Design 1a

0 投票
1 回答
2613 浏览

sql-server - SQL Server SSIS 数据沿袭

我目前在 SQL Server 中有一些标准的 SSIS 包,它们可以将数据从 CSV 文件加载并转换到 SQL Server 数据库中。

我想为这些 SSIS 包捕获数据沿袭,但不确定如何做到这一点。理想情况下,我不想重新编写软件包,并希望是否可以像这样“打开”某些东西。SSIS/SQL Server 中是否内置了任何东西,或者是否有任何可用的 3rd 方工具?

任何建议将不胜感激。干杯

0 投票
1 回答
255 浏览

apache-nifi - Apache NiFi 实例挂在“计算流文件沿袭...”窗口

我的 Apache NiFi 实例只是挂在特定流的“计算流文件沿袭...”上。其他人工作,但它不会显示任何数据文件的此特定流程的沿袭。日志中唯一的错误消息与其中一个处理器中的错误有关,但我看不出这将如何影响沿袭,或阻止页面加载。

0 投票
1 回答
157 浏览

apache-atlas - 我运行脚本/工具(import-hive.sh),我可以搜索配置单元实体,如表、数据库、视图、列,但没有沿袭,这是正常的吗?

在安装 atlas 之前,我的 hive 数据库集群中有两个名为 atlas_testm 和 atlas_testm_ext 的 hive 表(是基于 atlas_testm 的视图)。

安装atlas并运行atlas服务后,我运行名为import-hive.sh的脚本,我可以通过搜索在atlas ui web中看到这两个hive表,但是没有atlas_testm和atlas_testm_ext关系的血统,这是正常的吗?

我想知道名为 import-hive.sh 的脚本是否不支持配置单元表的历史沿袭导入?

这个问题困扰我很久了。在此处输入图像描述 在此处 输入图像描述

0 投票
1 回答
713 浏览

scala - java.lang.StackOverflowError 抛出 spark-submit 但不在 IDE 中运行

我开发了一个用于协同过滤的 Spark 2.2 应用程序。它可以在 IntelliJ 中正常运行或调试。我也可以进入 Spark Web UI 来查看进程。但是当我尝试将它部署到 EMR 并在本地测试 spark-submit 时,程序运行不正常。

spark提交命令的一部分:


我猜它与以下内容高度相关: http ://asyncified.io/2016/12/10/mutablelist-and-the-short-path-to-a-stackoverflowerror/

但我仍在尝试理解和修复我的代码

0 投票
1 回答
48 浏览

cloudera - Cloudera Navigator 中的沿袭功能

Lineage 能否在 Cloudera 的企业试用版中工作?

我看到了 lineage 选项卡,但我没有看到我从另一个 hive 表派生的 hive 表的 lineage。不幸的是,这些信息在 Cloudera 文档中也不是很清楚。

0 投票
3 回答
427 浏览

java - 如何在 Java 代码中监控/检查数据/属性流

当我需要捕获从一个 API 到另一个 API 的数据流时,我有一个用例。例如,我的代码使用休眠从数据库读取数据,在数据处理过程中,我将一个转换POJO为另一个并执行更多处理,然后最终转换为最终结果休眠对象。简而言之,就像POJO1to 。POJO2POJO3

在 Java 中,有一种方法可以推断出 POJO3 的属性是从 POJO1 的该属性生成/转换的。我想看看可以捕获从一个模型到另一个模型的数据流的东西。这个工具可以是编译时的,也可以是运行时的,我都可以。

我正在寻找一种可以与代码并行运行并在每次运行时提供数据沿袭详细信息的工具。

0 投票
1 回答
196 浏览

qlikview - 在读取 QVW 的 XML 元数据时,如何区分 QVD 源文件和目标文件?

我目前正在尝试寻找 Rob Wunderlich(Qlik 创始人)创建的 Governance Dashboard 的替代方案,因为我目前在使用它时遇到错误。

您如何区分 QVW 使用的数据源(QVD,又名源)或该 QVW 生成的数据文件(QVD,又名目标)?

下面是我在解析一个特定 Transform QVW 的 XML 元数据(lineageinfo 标记中的鉴别子标记)时发现的示例。

样本表输出

目标只是由此确定吗?

0 投票
2 回答
2704 浏览

google-cloud-platform - 如何在 GCP 中执行数据沿袭?

当我们用 GCP 云存储实现数据湖,用 Dataproc、Dataflow 等云服务实现数据处理时,如何在 GCP 中生成数据沿袭报告?

0 投票
0 回答
259 浏览

google-cloud-platform - 谷歌云平台上的数据沿袭

数据沿袭是数据分析中的一个重要因素。我在 GCP 中找不到任何托管或无服务器产品。路线图中是否有任何产品或是否留给实施者请赐教。