问题标签 [data-lineage]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure-databricks - 在 azure databricks 中查找笔记本的沿袭
我正在开展一个项目,我们将在 Azure 数据块中创建许多笔记本。在许多情况下,可以嵌套笔记本调用。我们正在寻找一种方法来创建跨笔记本的自动化血统。任何帮助或指导在这里表示赞赏。
scala - 检查点/持久化/改组似乎不会“短路”rdd的血统,如“学习火花”一书中详述
在学习 Spark 时,我阅读了以下内容:
除了流水线之外,如果现有的 RDD 已经保存在集群内存或磁盘上,Spark 的内部调度程序可能会截断 RDD 图的沿袭。在这种情况下,Spark 可以“短路”并根据持久化的 RDD 开始计算。可能发生这种截断的第二种情况是,当 RDD 已经作为早期 shuffle 的副作用实现时,即使它没有显式地 persist()ed。这是一个底层优化,它利用了 Spark shuffle 输出被写入磁盘的事实,并利用了 RDD 图的许多部分被重新计算的事实。
所以,我决定尝试用一个简单的程序(如下)来看看这个:
阅读 Spark 书中的上述段落后,我没有看到我的预期。每次调用此方法时,我都看到了完全相同的 toDebugString 输出——每次都指示两个阶段(我原本预计在检查点应该截断沿袭之后只有一个阶段。),如下所示:
我想知道我忽略的关键问题是否可能是“可能”这个词,如“时间表可能会截断血统”。在其他情况下,考虑到我上面编写的相同程序,这种截断是否可能发生?还是我写的小程序没有做正确的事情来强制截断血统?提前感谢您提供的任何见解!
hbase - 如何在 Apache Atlas 中显示 HBase 数据沿袭?
我正在测试 Apache Atlas 数据治理工具来显示 NoSQL 数据库的数据沿袭。
我知道 HBase 是目前唯一支持的 NoSQL 数据库(输入元数据源)。
我在具有功能性 Apache HBase 和 Apache Solr 实例的环境中设置了 Apache Atlas 2.0。(来自https://atlas.apache.org/InstallationSteps.html)
我创建了几个测试表,并能够使用脚本hbase shell
将其导入 Atlas 。import-hbase.sh
我还配置了 HBase Hook 以不断地将我的数据提供给 Atlas。
由于一切正常(数据已成功传输到 Atlas),我希望在对测试数据进行少量操作后看到一些数据沿袭。但是 Apache Atlas 一直在 UI 中显示“未找到沿袭数据”消息。
我做了一些研究,发现互联网上唯一的血统示例是用 Hive 制作的。
所以我的问题是,Apache Atlas 是否支持显示 HBase 数据沿袭?如果是这样,有没有人成功做到这一点?有什么配置可以设置吗?
谢谢你的帮助
java - 我们如何在 MarkLogic 中保留出处和血统
我们如何在 MarkLogic 中保留出处和血统?
信封模式的用例是什么?
从数据源导出数据时,是否有任何方法可以跟踪数据沿袭?
data-warehouse - 在处理 Snowflake 中的数据沿袭时有哪些选择?
关于在雪花中处理数据沿袭的任何想法/选项?我们遵循微服务架构,在该架构中,一旦触发某些事件,我们就会运行一组包含大量 SQL 查询的存储过程。
示例:当填充表 A 时,执行 SP_Populate_Table_B,结果是填充了表 B。当我们填充暂存区、DataVault 和我们的维度模型时,我们有大量的 SP。
我们正在寻找任何好的方法来处理围绕这种执行 ETL 的微服务方式的所有元数据。基本上是自动化的方法来跟踪表之间的依赖关系,可视化编排,有更好的方法来处理表更改时 SP 的更改等。
您能否为您为 Snowflake 尝试过的一些框架或工具提供建议,最好是开源的?DBT 能解决这个问题吗?
谢谢潘泰利斯
scala - RDD[(K, V)] 上的 groupByKey 类型返回 List[(K, RDD[V])]
我会将 a 拆分RDD[(K, V)]
为存储桶,例如输出类型为 a List[(K, RDD[V])]
,这是我的建议。但我不满意,因为它依赖于keysNumber
运行原始 RDD。是否存在其他需要较少运行原始 RDD 的处理方式。如果不是,您如何看待在递归调用之前放入缓存休息的事实,肯定它会更快,但 Spark 会因为与第一个 RDD 的血缘关系而最小化内存中的存储,还是会节省~keysNumber
原始 RDD 的最小版本的时间。谢谢你。
postgresql - 确定查询命中的关系
我有一个由模板机制构造的 PostgreSQL 查询。我想要做的是确定查询运行时实际命中的关系并将它们记录在关系中。所以这是一个非常基本的血统问题。简单地查看查询中出现的关系名称(或解析查询)并不能轻易解决问题,因为查询有些复杂,并且模板机制会插入诸如WHERE FALSE
.
我当然可以通过EXPLAIN
在查询上使用并手动插入我找到的关系名称来做到这一点。然而,这有两个缺点:
EXPLAIN
实际运行查询。不幸的是,运行查询需要很长时间,因此运行两次查询并不理想,一次用于结果,一次用于EXPLAIN
.- 它是手动的。
在阅读了一些文档后,我发现 on 可以EXPLAIN
自动将结果记录到 CSV 文件并将其读回关系。但是,据我了解,这意味着将所有内容都记录到 CSV,这对我来说不是一个选项。此外,似乎只有在执行时间超过预定阈值时才会触发自动日志记录,并且我想针对一些特定查询执行此操作,而不是针对所有耗时的查询。
PS:这不需要在数据库层完全实现。例如,一旦我得到EXPLAIN
in 关系的结果,我就可以解析它并提取它在应用程序层遇到的关系。
python - 来自 2 列数据框的 Python 递归函数
我有下表,我读入了一个数据框:
n,next_n
1,2
1,3
1,6
2,4
2,8
3,5
3,9
4,7
9,10
我的递归函数应该从最后返回多个数字列表。
例如,如果我选择查看与 9 关联的所有值,我应该得到一个显示为 [9,10] 的列表。
另一个例子:
4 应该产生 [4,7]
3 产生两个列表
[3,5]
[3,9,10]
当我运行 recursivenum(df,1)
我得到
[7]
[8]
[5]
[10]
[6]
[1, 2, 4, 7, 8, 3, 5, 9, 10, 6]
与我期望看到的相比,这算不了什么。
我希望看到五个列表: [1,2,4,7]
[1,2,8]
[1,3,5]
[1,3,9,10]
[1,6]
有人可以指出我正确的方向?
azure-databricks - 如何检查 azure databricks 和 HDinsight 上的数据沿袭?
我有在存储在 dbfs(databricks 文件系统)中的表中执行转换的笔记本。我想捕获并显示数据沿袭。另外我想知道如何在 hdinsight 中做同样的事情。