问题标签 [amazon-deequ]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

48 问题

0 投票

1 回答

270 浏览

python - 如何在 pydeequ 中运行所有建议的检查

我刚开始使用 pydeequ，我想为具有约 1800 个功能的 spark 数据框创建检查。现在要知道我必须执行哪些检查，我执行以下操作

在上面我得到了关于我可以对我的数据进行的所有检查的建议。现在目标是2折。

我可能想运行由提供的检查suggestionResult
我可能想对一系列功能进行特定检查，例如 NonNegative、Unique 检查。

我完全不确定该怎么做，在尝试了几种方法之后，它仍然不起作用，虽然我知道它当然可以一次运行所有建议检查，但只能在 scala 中看到这个（我需要根据我的观点在 pydeequ 中执行此操作1)

我确实尝试过以下方式，但没有奏效。在重复分析仪上给了我一个错误

python amazon-deequ

2021-06-17T00:49:00.527

0 投票

0 回答

233 浏览

scala - 如何将 Amazon Deequ 的失败状态记录存储在单独的 Spark DataFrame 中

我需要运行数据质量测试，所以我为此使用 Amazon Deequ。我可以使用下面的代码找到数据质量成功/失败状态，但接下来我想获取所有检查失败的行并将其存储到另一个 DataFrame/Hive 表中。请帮助我如何获得它。我们还可以同时在多个数据集上执行 Amazon Deequ 吗？下面是运行代码，需要帮助来获取存储错误失败记录的代码。

2021-07-30T11:21:31.337

0 投票

1 回答

513 浏览

python - 如何从 Jupyter Notebook 提交 PyDeequ 作业到 Spark/YARN

如何配置环境以从 Jupyter 笔记本向 Spark/YARN（客户端模式）提交 PyDeequ 作业。除了使用环境之外，没有全面的解释。如何设置环境以与非 AWS 环境一起使用？

TypeError: 'JavaPackage' object is not callable如果只是按照示例进行操作，则会导致错误，例如使用 PyDeequ 大规模测试数据质量。

python amazon-deequ

2021-08-16T01:26:14.880

0 投票

1 回答

77 浏览

java - 无法在 java 中创建所需类型的对象

我正在使用 deequ 编写分析器。我的编辑正在向我显示此警告，但我不确定如何修复此警告。

网上这个：

我在 IntelliJ 中收到此警告。

我收到建议更改Analyzer为Analyzer<NumMatchesAndCount, DoubleMetric>. 当我这样做时，此警告已解决，但是，在这样做时，我在以下行中收到错误：

我得到的错误：

还DoubleMetric实现了 Metric 接口 ( public class DoubleMetric implements Metric, Product, Serializable)，所以我认为我们不应该得到上述错误。我对吗？

addAnalyzer上一行中的函数签名是：

我的疑问是，当函数的签名不期望参数化类Analyzer时，为什么我会收到预期类型为的警告Analyzer<?,Metric<?>>？

我的目标是找出如何准确使用addAnalyzer上述功能？在这个函数中，我想传递一个PatternMatch类的实例。该类实现如下：PatternMatch扩展抽象类StandardScanShareableAnalyzer，该抽象类实现接口ScanShareableAnalyzer，该接口又扩展Analyzer类。

java java-8 amazon-deequ

2021-08-24T07:18:02.630

0 投票

1 回答

169 浏览

scala - 什么是兼容的使用 Amazon Deequ 的所有依赖项

我已经为由于版本问题而失败的亚马逊 Deequ 编写了代码。在我的系统中，Spark 2.4.0 可用，任何人都可以建议使用哪个版本的 Deequ 和 Scala、fastxml 等兼容？我收到信息，例如检测到多个 Scala 版本。我正在使用 Deequ LATEST 或尝试使用其他一些最新版本。我得到了多个版本的 Scala，这可能是问题的主要原因。如果您可以提供正确的 pom 文件和所有兼容版本，请提供帮助。

以下是信息、错误和使用的 POM.xml ：

错误：

POM.xml：

scala apache-spark pom.xml fasterxml amazon-deequ

2021-08-24T09:57:16.993

0 投票

0 回答

90 浏览

python - 在本地使用 pyspark 3 从 s3 读取镶木地板文件时出现 AWSCredentialsProvider 错误

尝试从本地的 s3 读取镶木地板文件会java.lang.NoClassDefFoundError: com/amazonaws/auth/AWSCredentialsProvider出错。

错误发生在两个：

pyspark3.0.2与 hadoop-aws2.7.4
pyspark3.1.2与 hadoop-aws3.2.0

它3.8使用 conda在 python 下运行，4.10而 aws-java-sdk-bundle 的版本为1.11.901. 并从https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-awshadoop-aws添加到jars目录

这是我的代码：

输出：

我错过了什么？

python amazon-s3 pyspark parquet amazon-deequ

2021-08-24T14:55:45.870

0 投票

0 回答

66 浏览