问题标签 [data-lineage]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
77 浏览

python - 错误:azure_cosmosdb_container 类型中缺少强制属性值

在 Azure Purview 中尝试在 Azure Cosmos DB SQL API 集合和 Azure Blob 资源集之间创建列映射沿袭时,它会引发以下错误。

我使用 PyApacheAtlas 包来创建自定义血统。

注意:与 2 个 Azure Blob 资源集一起工作正常

参考:https ://github.com/wjohnson/pyapacheatlas/blob/master/samples/CRUD/create_column_mapping_lineage.py

"errorMessage":"Invalid instance creation/updation parameters passed : azure_cosmosdb_sqlapi_collection.resourceLink: mandatory attribute value missing in type azure_cosmosdb_container"

0 投票
0 回答
27 浏览

pyspark - Spark 属性级数据沿袭

我们有 pyspark 代码,我们希望获得相同的属性级别数据沿袭。我听说 Apache spline 可以做到,但是 apache spline 与其他工具的集成并不顺利。另外,我可能没有得到客户的许可来安装共享 cloudera 集群的 apache spline。

是否有任何开源 python 代码库可以帮助解决这种情况?

0 投票
1 回答
43 浏览

python - 使用集群数据框命名 Python 沿袭

我有一个数据框

如您所见,每一行都是聚集的。

我想为每个样本命名“基于谱系”的标签。

例如,sample1 将是 lin1,因为它首先出现,sample2 将是 lin1-1。

Sample3 将是 lin1-1-1,sample4 将是 lin1-1-1-1。

接下来,sample5 将是 lin1-2,sample6 将是 lin1-2-1...

Sample11 将是血统 lin2 的新起点。

我最初的命名想法是。

"sample1 是 lin1,如果下一个样本包含在前一个样本中,则 lin1 + "-1" 如果没有,则 lin(1+1)"

样本1-> lin1

sample2 -> lin1-1(sample2 包含在 sample1 中)

sample3 -> lin1-1-1(sample3 包含在 sample2 中)

sample4 -> lin1-1-1-1(sample4 包含在 sample3 中)

sample5 -> lin1-1-2 (sample5 不包含在 sample4 中) .... 这样的逻辑。

我无法将这个逻辑变成 python 脚本。