问题标签 [amazon-deequ]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1169 浏览

scala - Scala Spark:如何将生成的方法列表添加到函数中

我正在使用 Amazon deequ 生成测试用例,它返回以下我想在进一步功能中使用的方法列表,而不是单独编码。

这些行返回下面的方法列表

在下一个函数中,我想在下面传递这些值,例如

当我像下面这样直接传递行时,它会抛出错误

有什么办法吗??

参考:https ://aws.amazon.com/blogs/big-data/test-data-quality-at-scale-with-deequ/

这是我迄今为止尝试过的

这将返回一个空结果:

看起来我缺少在数组中添加元素或以错误的方式实现它并为此寻找一些建议。

更新1:

我试过使用下面的代码,但是它抛出错误:

错误:

type mismatch; found : scala.collection.immutable.Iterable[String] required: Seq[com.amazon.deequ.constraints.Constraint]

更新 2:

错误:

type mismatch; found : Seq[com.amazon.deequ.checks.Check] required: Seq[com.amazon.deequ.constraints.Constraint]

0 投票
2 回答
459 浏览

scala - 使用 Deequ 和 Scala 计算指标

我是新手ScalaAmazon Deequ。我被要求编写一个Scala代码,通过使用存储在上的源文件来计算关于约束的指标(例如CompletenessCountDistinct等),并将生成的指标加载到 Glue 表中,该表将进一步用于报告。DeequcsvS3

任何人都可以通过将我指向可以帮助我实现这一目标的在线资源的正确方向来帮助我吗?我对Scala和都是新手Deequ。那么谁能给我一个示例Scala代码并解释如何使用这些deequ库等?

如果需要更多信息来更好地解释我的问题,请告诉我。

0 投票
1 回答
615 浏览

scala - Deequ 中的唯一性检查

我目前正在探索 Deequ 库,并试图了解是否可以检查列组合的唯一性。

这段代码

似乎分别计算每一列的唯一性(如果我错了,请纠正)

谢谢

0 投票
2 回答
938 浏览

scala - 从 csv 文件加载约束(amazon deequ)

我正在查看 Deequ,它看起来是一个非常不错的库。我想知道是否可以从 csv 文件或 HDFS 中的 orc 表加载约束?

假设我有一张包含这些类型的桌子

我想设置如下约束:

但我想从 csv 文件加载“.isComplete(“id”)”、“.isUnique(“id”)”,以便业务可以添加约束,我们可以根据他们的输入运行测试

我已经设法从SuggestionResult.constraintSuggestion 中获得约束

它给出了一个列表,例如:

但它是从SuggestResult.constraintSuggestions 生成的。但我希望能够根据来自 csv 文件的输入创建一个这样的列表,有人可以帮助我吗?

总结一下:基本上我只想添加:

动态基于文件所在的文件,例如:

0 投票
1 回答
688 浏览

scala - 如何在 Deequ ColumnProfileRunner 中过滤具有列约束的行?

我是 Scala 和 Spark 的新手。我正在探索用于数据分析的 Amazon Deequ 库。

使用 ColumnProfilerRunner() 时如何获取具有特定值的行数?

AnalysisRunner 有一个“合规性”选项我正在寻找一个类似的选项来过滤符合给定列约束的行。

我有多个列,因此我想动态检查而不是使用列名。

感谢任何帮助。

谢谢

0 投票
1 回答
113 浏览

amazon-web-services - 在 AWS Deequ 中从 excel 中解析 DQ 规则

有没有人有关于如何从 AWS DeeQu 中的 excel 表中解析数据质量规则的示例?

0 投票
1 回答
729 浏览

scala - 构建一个函数来向 amazon deequ 框架添加检查

使用 amazon deequ 库,我正在尝试构建一个函数,该函数需要 3 个参数、检查对象、一个告诉需要运行什么约束的字符串以及另一个提供约束条件的字符串。我有一堆要从 mysql 表中读取的检查。我的意图是遍历我从 mysql 表中获得的所有检查,并使用我上面描述的函数构建一个检查对象并在源数据帧上运行检查这里是亚马逊 deequ 的示例 https://towardsdatascience.com/使用 apache-spark-93bb1e2c5cd0 进行大规模自动化数据质量测试

所以函数调用看起来像这样,

var _check = build_check_object_function(check_object, "hasSize", "10000")

这个函数应该向 check_object 添加一个新的 hasSize 检查并返回它。

我卡住的部分是如何将 hasSize 字符串转换为 hasSize 函数。

这是我得到的错误

0 投票
0 回答
354 浏览

scala - 动态解析来自 csv/table 的 Deequ 规则

我正在使用 amazon deequ 库并尝试从 csv 或 mysql 表中传递规则。我的 csv 文件将包含具有如下值的列

我正在尝试查找是否有办法将此字符串列直接转换为约束。这是我正在尝试做的伪代码。

这样......如果表中有一个新的约束说 containsEmail,我不必回到我的代码并单独编写解析逻辑来将 containsEmail 字符串转换为 containsEmail 约束。

0 投票
1 回答
277 浏览

java - 如何从 java 调用 Amazon Deequ hasDataType

我正在尝试从 Java 实现 Amazon Deequ 功能。

我正在尝试添加数据类型包含但无法从 java 传递第三个参数(断言)

scala中的方法声明如下

0 投票
0 回答
140 浏览

scala - 直接打印指标而不显式提及列名 Scala

我在scala中有以下代码:

我想直接打印指标而不明确提及列名。