问题标签 [amazon-deequ]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
720 浏览

apache-spark - 无法在本地运行 amazon deequ 示例

我正在尝试在本地运行和测试 amazon deequ 库,但对于各种示例,我反复收到类未找到错误。准确错误

或者

我遵循的代码是我使用 spark-submit --class --packages com.amazon.deequ:deequ:1.0.4 的示例中给出的代码

我也尝试使用 spark-shell --jars 并尝试逐行运行但仍然得到相同的结果

0 投票
1 回答
356 浏览

performance - 是否可以在多个分区上分别并行运行 Deequ 异常检测

我们在多个列上分区了 Spark 数据帧。例如,我们有一个合作伙伴列,可以是 Google、Facebook 和 Bing。我们有一个频道栏,可以是 PLA 和 Text。我们想分别在 Google-PLA、Google-TEXT、Facebook-TEXT 等上运行异常检测,因为它们遵循不同的模式。到目前为止,我发现我可以使用不同的过滤器描述配置 AnomalyCheckConfig,并在检查结果时使用相同的过滤器。但首先我需要过滤掉每个分区组合的数据,然后使用其关联的过滤器运行异常测试。一一连载。有没有办法并行运行它们?我可以对整个数据帧多次使用不同的 AnomalyCheckConfigs 执行 addAnomalyCheck() 并在一次运行中获得验证结果吗?

0 投票
1 回答
507 浏览

scala - 在 AWS Glue 上使用 Deequ

我在 AWS GLUE 上使用 Deequ,令人惊讶的是,当我运行在 Checks for the verificationSuite 下列出的 hasMaxLength 时。我收到以下错误,有人可以帮忙吗?所有其他检查都通过/运行。它说检查 hasMaxLength 不是 amazon.deequ.checks 的成员

这是代码:

0 投票
1 回答
179 浏览

scala - 如何使用 Amazon Deequ 检查“column1”的值是否在“column2”的值的 +-20% 范围内?

因此,我在 spark 中使用 Amazon Deequ,并且我有一个数据框“df”,其中两列的类型为“Long”或数字。我只是想检查:

value(column1) lies between value(column2)-20% and value(column2)+20%对于所有行

我不确定在这里放什么支票:

0 投票
1 回答
327 浏览

scala - Deequ 检查的结果数据框的列表示什么?

所以,我在 Spark 中运行了一个简单的 Deequ 检查,结果如下:

现在,我的result1数据框看起来像这样:

我在列check_statusconstraint_status. 它们有何不同?我的检查结果应该在后一项吧?那么前者意味着什么呢?

我在deequ 博客中也找不到任何明确的说明。有人可以解释一下吗?

0 投票
0 回答
56 浏览

scala - Amazon Deequ (scala) - 并行化分析器

我有一个用例,我需要在 600 + 列上运行 3 个指标(完整性、熵和 countDistinct),查看 DAG,观察到指标是按顺序计算的。我将所有分析器添加到单个 AnalaysisRunner 对象并只进行一次运行调用,任何人都可以帮助了解如何在我的情况下使其并行以优化运行时间?

0 投票
1 回答
52 浏览

scala - ConstraintSuggestionRunner 不占用用反引号括起来的列

我目前正在从 excel 工作表中导入数据集,该工作表的列名带有像这样的点字符"abc.xyz"

我经历了几个 stackOverflow 问题,它说我们可以用带有反引号的列名替换它,如下所示"'abc.xyz'":因此,我将所有包含点的列名重命名为相同的名称,但用反引号括起来,如下所示:

现在,当我在 ConstraintSuggestionRunner 类中传递这个数据框时,如下所示:

我收到如下错误:

错误主要:org.apache.spark.sql.AnalysisException:无法解析 '`abc.xyz`'给定的输入列:

如何解决此错误?

0 投票
1 回答
168 浏览

scala - 如何检查 DateType 列的值是否在指定日期范围内?

所以,我在 Spark 中使用 Amazon Deequ,并且我有一个数据框,其中df有一列publish_date类型为DateType. 我只是想检查以下内容:

其中xy是整数。

我不确定在这里放什么支票:

0 投票
1 回答
532 浏览

python - 如何在 PyDeequ 中使用 hasUniqueness 检查?

我将PyDeequ用于数据质量,并且我想检查一组列的唯一性。有一个检查方法hasUniqueness,但我不知道如何使用它。

我正在努力:

但是我们应该在这里使用什么来代替断言函数????呢?

有没有人试过检查hasUniqueness列的组合?

0 投票
0 回答
56 浏览

amazon-deequ - 是否可以配置 Deequ 指标存储库的架构?

这是由 DF 提供的MetricsRepository

这是直接从 a 提供的 DF VerificationResult

是否可以操纵我的 MetricsReposity 数据框以反映第二个 DF 的模式。这将使我的生活更轻松,因为我不必管理两张桌子。

注意:我仅将 MetricsRepository 用于其异常检测工具。