问题标签 [amazon-deequ]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 无法在本地运行 amazon deequ 示例
我正在尝试在本地运行和测试 amazon deequ 库,但对于各种示例,我反复收到类未找到错误。准确错误
或者
我遵循的代码是我使用 spark-submit --class --packages com.amazon.deequ:deequ:1.0.4 的示例中给出的代码
我也尝试使用 spark-shell --jars 并尝试逐行运行但仍然得到相同的结果
performance - 是否可以在多个分区上分别并行运行 Deequ 异常检测
我们在多个列上分区了 Spark 数据帧。例如,我们有一个合作伙伴列,可以是 Google、Facebook 和 Bing。我们有一个频道栏,可以是 PLA 和 Text。我们想分别在 Google-PLA、Google-TEXT、Facebook-TEXT 等上运行异常检测,因为它们遵循不同的模式。到目前为止,我发现我可以使用不同的过滤器描述配置 AnomalyCheckConfig,并在检查结果时使用相同的过滤器。但首先我需要过滤掉每个分区组合的数据,然后使用其关联的过滤器运行异常测试。一一连载。有没有办法并行运行它们?我可以对整个数据帧多次使用不同的 AnomalyCheckConfigs 执行 addAnomalyCheck() 并在一次运行中获得验证结果吗?
scala - 在 AWS Glue 上使用 Deequ
我在 AWS GLUE 上使用 Deequ,令人惊讶的是,当我运行在 Checks for the verificationSuite 下列出的 hasMaxLength 时。我收到以下错误,有人可以帮忙吗?所有其他检查都通过/运行。它说检查 hasMaxLength 不是 amazon.deequ.checks 的成员
这是代码:
scala - 如何使用 Amazon Deequ 检查“column1”的值是否在“column2”的值的 +-20% 范围内?
因此,我在 spark 中使用 Amazon Deequ,并且我有一个数据框“df”,其中两列的类型为“Long”或数字。我只是想检查:
value(column1) lies between value(column2)-20% and value(column2)+20%
对于所有行
我不确定在这里放什么支票:
scala - Deequ 检查的结果数据框的列表示什么?
所以,我在 Spark 中运行了一个简单的 Deequ 检查,结果如下:
现在,我的result1
数据框看起来像这样:
我在列check_status
和constraint_status
. 它们有何不同?我的检查结果应该在后一项吧?那么前者意味着什么呢?
我在deequ 博客中也找不到任何明确的说明。有人可以解释一下吗?
scala - Amazon Deequ (scala) - 并行化分析器
我有一个用例,我需要在 600 + 列上运行 3 个指标(完整性、熵和 countDistinct),查看 DAG,观察到指标是按顺序计算的。我将所有分析器添加到单个 AnalaysisRunner 对象并只进行一次运行调用,任何人都可以帮助了解如何在我的情况下使其并行以优化运行时间?
scala - ConstraintSuggestionRunner 不占用用反引号括起来的列
我目前正在从 excel 工作表中导入数据集,该工作表的列名带有像这样的点字符"abc.xyz"
。
我经历了几个 stackOverflow 问题,它说我们可以用带有反引号的列名替换它,如下所示"'abc.xyz'"
:因此,我将所有包含点的列名重命名为相同的名称,但用反引号括起来,如下所示:
现在,当我在 ConstraintSuggestionRunner 类中传递这个数据框时,如下所示:
我收到如下错误:
错误主要:org.apache.spark.sql.AnalysisException:无法解析
'`abc.xyz`'
给定的输入列:
如何解决此错误?
scala - 如何检查 DateType 列的值是否在指定日期范围内?
所以,我在 Spark 中使用 Amazon Deequ,并且我有一个数据框,其中df
有一列publish_date
类型为DateType
. 我只是想检查以下内容:
其中x
和y
是整数。
我不确定在这里放什么支票:
python - 如何在 PyDeequ 中使用 hasUniqueness 检查?
我将PyDeequ用于数据质量,并且我想检查一组列的唯一性。有一个检查方法hasUniqueness
,但我不知道如何使用它。
我正在努力:
但是我们应该在这里使用什么来代替断言函数????
呢?
有没有人试过检查hasUniqueness
列的组合?
amazon-deequ - 是否可以配置 Deequ 指标存储库的架构?
这是由 DF 提供的MetricsRepository
:
这是直接从 a 提供的 DF VerificationResult
:
是否可以操纵我的 MetricsReposity 数据框以反映第二个 DF 的模式。这将使我的生活更轻松,因为我不必管理两张桌子。
注意:我仅将 MetricsRepository 用于其异常检测工具。