问题标签 [spline-data-lineage-tracker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
418 浏览

scala - 安装 Spline 时出错(Spark 的数据沿袭工具)

我正在尝试在 Windows 中安装 Apache Spline。我的 Spark 版本是 2.4.0 Scala 版本是 2.12.0 我按照这里提到的步骤https://absaoss.github.io/spline/ 我运行了 docker-compose 命令并且 UI 已启动

之后我尝试运行以下命令来启动 pyspark shell

这给了我以下错误

我试图检查可能导致此错误的原因,并且大多数帖子都指向 scala version mismatch ,但我使用的是 scala 2.12.0 并且提到的 spline 包也适用于 scala 2.12。那么,我错过了什么?

0 投票
1 回答
462 浏览

apache-spark - 使用样条在火花中启用血统时出错?

我尝试使用 spline 使用此处指定的两种方式来跟踪 spark 中的血统 但是它们都失败并出现相同的错误

错误 QueryExecutionEventHandlerFactory:样条初始化失败!Spark 沿袭跟踪已禁用 Spark Agent 无法与 spline 网关建立连接

CausedBy:java.net.connectException:连接被拒绝

我可以在 port 看到 UI 80809090而且 arangoDB 也已启动并正在运行。

但没有显示血统。

我试过 pyspark 和 spark-shell 但没有运气。任何帮助表示赞赏。

0 投票
1 回答
24 浏览

apache-spark - 从样条谱系中查找火花管道开始时间

我正在探索样条曲线以确定火花执行管道所需的时间(从初始化火花上下文到写入结果)。我能看见

在实际上是写入时间的样条谱系文件中。是否有任何选项可以从 Spline Lineage Log 获取管道的开始时间?

0 投票
1 回答
142 浏览

apache-atlas - 样条火花代理罐在后处理过程中出现错误

我一直在尝试使用新的样条线 jsr 运行以下代码:za.co.absa.spline.agent.spark:spark-3.0-spline-agent-bundle_2.12:0.6.0 但遇到了特定于 UserExtraMetadataProvider 的错误在较新的版本中已弃用。我还尝试使用第一个代码块下方显示的代码将 UserExtraMetadataProvider 替换为 UserExtraAppendingPostProcessingFilter,但仍然出现错误。您能否验证并分享如何使用新的样条线束正确编写后处理过滤器代码。

这是仍然有错误的更新代码

这是错误:

0 投票
1 回答
101 浏览

json - 需要为特定的 JSON 输出重写 Scala 代码

我正在尝试通过 spline 和 apacheatlas api 将 Databricks 笔记本谱系注册到 Azure Purview。代码有两个版本:1) 是使用 databricks 运行时版本 6.4 并且按预期工作的原始代码,但我们需要在至少 7.5 及更高版本的较新运行时版本中运行它,所以有 2) 第二个为运行时版本 7.5 重构的代码版本。具体来说,新代码需要新的 JSON 包,但输出(见下文)与原始代码的预期输出不匹配(如下所示)。需要重新编写代码才能正确执行,因为当前的新代码有错误。谢谢

原始旧代码:使用 Databricks Runtime version6.4 的原始代码如下

ORIGINAL EXPECTED OUTPUT:这是原始代码的预期 JSON 输出

新代码:这是使用 Databricks 运行时版本 7.5 并升级和重构 JSON 包的新代码。

新输出:新代码的 JSON 对象输出如下所示:

0 投票
1 回答
84 浏览

azure-databricks - Azure Databricks:尝试运行 Spline 来捕获 Spark 沿袭?

我正在尝试在 Azure Databricks 中设置Spline但遇到此问题,对此有何帮助?

我已经通过从这里下载在集群中安装了相应的 Spark 代理 - https://mvnrepository.com/artifact/za.co.absa.spline.agent.spark/spark-3.0-spline-agent-bundle_2.12/0.6 .1

笔记本