问题标签 [amazon-deequ]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 pydeequ 中运行所有建议的检查
我刚开始使用 pydeequ,我想为具有约 1800 个功能的 spark 数据框创建检查。现在要知道我必须执行哪些检查,我执行以下操作
在上面我得到了关于我可以对我的数据进行的所有检查的建议。现在目标是2折。
- 我可能想运行由提供的检查
suggestionResult
- 我可能想对一系列功能进行特定检查,例如 NonNegative、Unique 检查。
我完全不确定该怎么做,在尝试了几种方法之后,它仍然不起作用,虽然我知道它当然可以一次运行所有建议检查,但只能在 scala 中看到这个(我需要根据我的观点在 pydeequ 中执行此操作1)
我确实尝试过以下方式,但没有奏效。在重复分析仪上给了我一个错误
scala - 如何将 Amazon Deequ 的失败状态记录存储在单独的 Spark DataFrame 中
我需要运行数据质量测试,所以我为此使用 Amazon Deequ。我可以使用下面的代码找到数据质量成功/失败状态,但接下来我想获取所有检查失败的行并将其存储到另一个 DataFrame/Hive 表中。请帮助我如何获得它。我们还可以同时在多个数据集上执行 Amazon Deequ 吗?下面是运行代码,需要帮助来获取存储错误失败记录的代码。
python - 如何从 Jupyter Notebook 提交 PyDeequ 作业到 Spark/YARN
如何配置环境以从 Jupyter 笔记本向 Spark/YARN(客户端模式)提交 PyDeequ 作业。除了使用环境之外,没有全面的解释。如何设置环境以与非 AWS 环境一起使用?
TypeError: 'JavaPackage' object is not callable
如果只是按照示例进行操作,则会导致错误,例如使用 PyDeequ 大规模测试数据质量。
java - 无法在 java 中创建所需类型的对象
我正在使用 deequ 编写分析器。我的编辑正在向我显示此警告,但我不确定如何修复此警告。
网上这个:
我在 IntelliJ 中收到此警告。
我收到建议更改Analyzer
为Analyzer<NumMatchesAndCount, DoubleMetric>
. 当我这样做时,此警告已解决,但是,在这样做时,我在以下行中收到错误:
我得到的错误:
还DoubleMetric
实现了 Metric 接口 ( public class DoubleMetric implements Metric, Product, Serializable
),所以我认为我们不应该得到上述错误。我对吗?
addAnalyzer
上一行中的函数签名是:
我的疑问是,当函数的签名不期望参数化类Analyzer
时,为什么我会收到预期类型为的警告Analyzer<?,Metric<?>>
?
我的目标是找出如何准确使用addAnalyzer
上述功能?在这个函数中,我想传递一个PatternMatch
类的实例。该类实现如下:PatternMatch
扩展抽象类StandardScanShareableAnalyzer
,该抽象类实现接口ScanShareableAnalyzer
,该接口又扩展Analyzer
类。
scala - 什么是兼容的使用 Amazon Deequ 的所有依赖项
我已经为由于版本问题而失败的亚马逊 Deequ 编写了代码。在我的系统中,Spark 2.4.0 可用,任何人都可以建议使用哪个版本的 Deequ 和 Scala、fastxml 等兼容?我收到信息,例如检测到多个 Scala 版本。我正在使用 Deequ LATEST 或尝试使用其他一些最新版本。我得到了多个版本的 Scala,这可能是问题的主要原因。如果您可以提供正确的 pom 文件和所有兼容版本,请提供帮助。
以下是信息、错误和使用的 POM.xml :
错误 :
POM.xml:
python - 在本地使用 pyspark 3 从 s3 读取镶木地板文件时出现 AWSCredentialsProvider 错误
尝试从本地的 s3 读取镶木地板文件会java.lang.NoClassDefFoundError: com/amazonaws/auth/AWSCredentialsProvider
出错。
错误发生在两个:
- pyspark
3.0.2
与 hadoop-aws2.7.4
- pyspark
3.1.2
与 hadoop-aws3.2.0
它3.8
使用 conda在 python 下运行,4.10
而 aws-java-sdk-bundle 的版本为1.11.901
. 并从https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-awshadoop-aws
添加到jars
目录
这是我的代码:
输出:
我错过了什么?
python - 如何在pydeequ中传递直方图分箱udf?
我无法将 binningudf 传递给 pydeequ 的直方图分析器。有人可以帮忙吗
上面的代码抛出错误说
似乎上述错误是由于参数类型不正确。所以我尝试将 lambda 作为字符串。但后来我得到以下回应
scala - 使用 Intellij 对 Apache Spark 应用程序进行单元测试导致错误
我有一个应该执行数据准备步骤的 Spark 应用程序。我编写了一些单元测试来使用 deequ 检查数据质量,并且像往常一样,我想运行我的一个单元测试,但是我遇到了如下错误:
以下是我访问 Spark 会话的方法:
这是我的实际代码:
amazon-web-services - Amazon Deequ (Spark + Scala) - java.lang.NoSuchMethodError: 'scala.Option org.apache.spark.sql.catalyst.expressions.aggregate.AggregateFunction.toAgg
Spark 版本- 3.0.1 亚马逊 Deequ 版本- deequ-2.0.0-spark-3.1.jar
我在本地的 spark shell 中运行以下代码:
错误:
有人可以让我知道如何解决这个问题