问题标签 [amazon-deequ]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
29 浏览

amazon-deequ - PyDeequ - 增量指标收集

我正在尝试以增量方式收集我的指标。看起来 Deequ 可以做到这一点,如此处所示。但是,我在 PyDeequ 中找不到类似的东西。我正在尝试使用 saveOrAppendResult 功能,但这总是会覆盖我以前的结果。请问有人有这方面的经验吗?提前致谢。

0 投票
0 回答
27 浏览

apache-spark - 使用 Deequ 对 Apache Spark 应用程序进行单元测试

我即将商业化/生产我的 ML 管道,它会进行一些数据清理和转换。我基本上拥有以下内容,按顺序运行:

我想实施几个额外的步骤。现在我的问题是如何在每个步骤之间进行单元测试。使用传统应用程序,您可以针对代码库运行单元测试,并在成功后打包它们,但在这里我必须首先将它们打包为 Spark 应用程序,但我想在我的每一步之间暂停,我的每一步上面将给我一个新的 DataFrame,我想在每个步骤中使用 Deequ 来检查结果 DataFrame 的期望。

关于我的方法应该是什么的任何想法?

0 投票
0 回答
18 浏览

amazon-deequ - Deequ:检查近似不同值与预期值的比率

我正在使用近似不同的值检查。当它失败时,它只会向我显示它期望的数字。有没有办法显示近似计数与预期计数的比率,因为这将是一个更有用的指标?

0 投票
1 回答
48 浏览

pyspark - Deequ 满足功能未按预期运行

我正在使用 pydeequ 对数据进行一些检查,但是它的行为不符合预期。我的一列应该包含 0 到 1 之间的任何值。数据看起来像这样

结果返回失败并显示消息

值:0.5635412 不满足约束条件!

谁能建议我哪里出错了?

0 投票
0 回答
20 浏览

dataframe - 是否可以将约束从文件(csv、txt)加载到 Deequ Checks?

是否可以将建议的约束保存到文件中,然后将它们加载为 cheks?我能够做到这一点而无需使用下一个代码保存它们

但是我想将它们保存到文件中并在需要时应用它们?有没有办法做到这一点?

0 投票
1 回答
58 浏览

scala - 类型参数不符合 trait 类型参数边界

我在这里使用由亚马逊在 scala 中编写的库

特征是这样的:

我正在尝试制作一个案例对象来存储一些信息,而上述分析器的一个实例就是其中的一部分。

我收到以下错误:

不确定,这里有什么问题。有人明白这个吗?

0 投票
0 回答
32 浏览

scala - AWS Deequ 检查错误:isGreaterThanOrEqualTo 不是 com.amazon.deequ.VerificationRunBuilder 的成员

我在带有 com.amazon.deequ:deequ:2.0.0-spark-3.1 库的 Databricks Notebook 上运行以下命令,以检查输入数据的数据质量,并且在 com.amazon.deequ 的成员的某些函数上收到错误消息。验证运行生成器。isGreaterThanOrEqualTo、hasDataType、hasMinLength 等检查在哪里存在?我确实检查了https://github.com/awslabs/deequ/blob/master/src/main/scala/com/amazon/deequ/checks/Check.scala并且它们确实存在于那里。

0 投票
1 回答
19 浏览

scala - 推断类型参数 [_$1] 不符合方法类型参数边界

我有一个案例类:

我有一个函数,它以 Seq 的形式返回上述案例类对象的集合。

我将上面列表中的对象添加到另一个签名如下的方法中:

我正在执行以下操作:

其中 verifySuite 是Deeque的开源代码

我在上面的代码中遇到的错误是:

代码在编译时失败,scala 无法理解状态,我无法理解_$1来自哪里。希望对此有一些意见