问题标签 [amazon-deequ]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
270 浏览

python - 如何在 pydeequ 中运行所有建议的检查

我刚开始使用 pydeequ,我想为具有约 1800 个功能的 spark 数据框创建检查。现在要知道我必须执行哪些检查,我执行以下操作

在上面我得到了关于我可以对我的数据进行的所有检查的建议。现在目标是2折。

  1. 我可能想运行由提供的检查suggestionResult
  2. 我可能想对一系列功能进行特定检查,例如 NonNegative、Unique 检查。

我完全不确定该怎么做,在尝试了几种方法之后,它仍然不起作用,虽然我知道它当然可以一次运行所有建议检查,但只能在 scala 中看到这个(我需要根据我的观点在 pydeequ 中执行此操作1)

我确实尝试过以下方式,但没有奏效。在重复分析仪上给了我一个错误

0 投票
0 回答
233 浏览

scala - 如何将 Amazon Deequ 的失败状态记录存储在单独的 Spark DataFrame 中

我需要运行数据质量测试,所以我为此使用 Amazon Deequ。我可以使用下面的代码找到数据质量成功/失败状态,但接下来我想获取所有检查失败的行并将其存储到另一个 DataFrame/Hive 表中。请帮助我如何获得它。我们还可以同时在多个数据集上执行 Amazon Deequ 吗?下面是运行代码,需要帮助来获取存储错误失败记录的代码。

0 投票
1 回答
513 浏览

python - 如何从 Jupyter Notebook 提交 PyDeequ 作业到 Spark/YARN

如何配置环境以从 Jupyter 笔记本向 Spark/YARN(客户端模式)提交 PyDeequ 作业。除了使用环境之外,没有全面的解释。如何设置环境以与非 AWS 环境一起使用?

TypeError: 'JavaPackage' object is not callable如果只是按照示例进行操作,则会导致错误,例如使用 PyDeequ 大规模测试数据质量

0 投票
1 回答
77 浏览

java - 无法在 java 中创建所需类型的对象

我正在使用 deequ 编写分析器。我的编辑正在向我显示此警告,但我不确定如何修复此警告。

网上这个:

我在 IntelliJ 中收到此警告。

我收到建议更改AnalyzerAnalyzer<NumMatchesAndCount, DoubleMetric>. 当我这样做时,此警告已解决,但是,在这样做时,我在以下行中收到错误:

我得到的错误:

DoubleMetric实现了 Metric 接口 ( public class DoubleMetric implements Metric, Product, Serializable),所以我认为我们不应该得到上述错误。我对吗?

addAnalyzer上一行中的函数签名是:

我的疑问是,当函数的签名不期望参数化类Analyzer时,为什么我会收到预期类型为的警告Analyzer<?,Metric<?>>

我的目标是找出如何准确使用addAnalyzer上述功能?在这个函数中,我想传递一个PatternMatch类的实例。该类实现如下:PatternMatch扩展抽象类StandardScanShareableAnalyzer,该抽象类实现接口ScanShareableAnalyzer,该接口又扩展Analyzer类。

0 投票
1 回答
169 浏览

scala - 什么是兼容的使用 Amazon Deequ 的所有依赖项

我已经为由于版本问题而失败的亚马逊 Deequ 编写了代码。在我的系统中,Spark 2.4.0 可用,任何人都可以建议使用哪个版本的 Deequ 和 Scala、fastxml 等兼容?我收到信息,例如检测到多个 Scala 版本。我正在使用 Deequ LATEST 或尝试使用其他一些最新版本。我得到了多个版本的 Scala,这可能是问题的主要原因。如果您可以提供正确的 pom 文件和所有兼容版本,请提供帮助。

以下是信息、错误和使用的 POM.xml :

错误 :

POM.xml:

0 投票
0 回答
90 浏览

python - 在本地使用 pyspark 3 从 s3 读取镶木地板文件时出现 AWSCredentialsProvider 错误

尝试从本地的 s3 读取镶木地板文件会java.lang.NoClassDefFoundError: com/amazonaws/auth/AWSCredentialsProvider出错。

错误发生在两个:

  • pyspark3.0.2与 hadoop-aws2.7.4
  • pyspark3.1.2与 hadoop-aws3.2.0

3.8使用 conda在 python 下运行,4.10而 aws-java-sdk-bundle 的版本为1.11.901. 并从https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-awshadoop-aws添加到jars目录

这是我的代码:

输出:

我错过了什么?

0 投票
0 回答
66 浏览

python - 如何在pydeequ中传递直方图分箱udf?

我无法将 binningudf 传递给 pydeequ 的直方图分析器。有人可以帮忙吗

上面的代码抛出错误说

似乎上述错误是由于参数类型不正确。所以我尝试将 lambda 作为字符串。但后来我得到以下回应

0 投票
0 回答
75 浏览

scala - 使用 Intellij 对 Apache Spark 应用程序进行单元测试导致错误

我有一个应该执行数据准备步骤的 Spark 应用程序。我编写了一些单元测试来使用 deequ 检查数据质量,并且像往常一样,我想运行我的一个单元测试,但是我遇到了如下错误:

以下是我访问 Spark 会话的方法:

这是我的实际代码:

0 投票
0 回答
26 浏览

scala - 亚马逊-deequ。ColumnProfiler,将结果的配置文件列表转换为 JSON 时字段数据类型丢失

尝试序列化列分析的结果时,未显示 dataType 值,而是使用 {} (我使用 json4s 库)。代码 -

结果 -

在此处输入图像描述

没有这个转换,我可以访问这个字段:

代码 -

结果 -

在此处输入图像描述

可能是什么问题呢?

0 投票
1 回答
209 浏览

amazon-web-services - Amazon Deequ (Spark + Scala) - java.lang.NoSuchMethodError: 'scala.Option org.apache.spark.sql.catalyst.expressions.aggregate.AggregateFunction.toAgg

Spark 版本- 3.0.1 亚马逊 Deequ 版本- deequ-2.0.0-spark-3.1.jar

我在本地的 spark shell 中运行以下代码:

错误:

有人可以让我知道如何解决这个问题