问题标签 [great-expectations]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
115 浏览

apache-spark - 如何将 Great Expectations DataFrame 转换为 Apache Spark DataFrame

以下代码将 Apache Spark DataFrame 转换为 Great_Expectations DataFrame。如果我想将 Spark DataFrame 转换为spkDFGreat_Expectations DataFrame,我会执行以下操作:

有人可以让我知道如何将 Great_Expectation 数据帧转换为 Spark 数据帧。

那么我需要做什么才能将新的 Great_Expectations 数据帧转换ge_df回 Spark 数据帧?

0 投票
0 回答
42 浏览

apache-spark - Cassandra 上的 great_expectations 数据验证

我在 Cassandra 键空间中有多个表。我想使用 Great Expectations 来验证我的数据。我一直在尝试使用 Spark 从 Cassandra 加载数据,并且能够使用 Spark 数据帧创建 RuntimeBatchRequest。但是,我需要创建检查点并验证新数据作为例行程序。谁能告诉如何为此目的配置远大期望?我也将不胜感激有关 Cassandra 数据验证的任何建议。

0 投票
0 回答
32 浏览

postgresql - 大期望验证结果操作

有没有办法将数据批量拆分为两个数据流:

  1. 满足期望的一种
  2. 期望失败的第二个

就是把测试的一批数据拆分成两个table/pandas数据框?一个干净,一个不干净?我正在尝试将 Postgres 表用作 ETL 管道中的数据源。唯一的事情是我不想让整个 ETL 过程失败,只是隔离那些没有通过测试用例的数据。

0 投票
1 回答
28 浏览

python - 如何在 Great_Expectations 中编码不成功、失败的结果

我正在评估 Great Expectations 以进行一些数据清理。

我已经设法让大部分代码满足我们的需求。我遇到了为不成功结果编码所需的属性问题。例如,如果“validation_results”成功,以下代码将打印“Successful”

但我不知道对失败的结果使用什么属性。

我尝试了以下方法:

但我收到错误消息:对于上述每个失败尝试,对象都没有属性。

有谁知道什么属性会给我一个失败的输出?

0 投票
0 回答
21 浏览

html - 如何更改 Great Expectations DataDoc HTML 报告中的默认值?

Great Expectations 提供了使用 DataDocs 生成 Html 报告的能力,如以下示例所示:

在此处输入图像描述

我想在标题中更改以下默认值 - 参见图片

在此处输入图像描述

该报告是使用以下方法生成的

我相信我可以做出改变,因为如果我运行代码validatation_results_stg

我得到以下输出

如您所见,默认值已加载,例如您会注意到 "expectation_suite_name": "default",

有人可以告诉我如何默认为其他东西吗?

0 投票
1 回答
41 浏览

prefect - RunGreatExpectationsValidation 执行返回异常

我在一个 great_expectations 集成问题上苦苦挣扎。
我显然使用RunGreatExpectationsValidation任务:

当我在 GE (great_expectations --V3-api checkpoint run my_checkpoint) 上运行命令时,它可以工作,但是在完美任务中,我有一个例外:使用 GE V3 api:

与 GE V2 api 相同

Great_expectations=0.13.43 (也尝试使用 0.12.10 版本) prefect
=0.15.9
有人体验过这个 pb 吗?谢谢

0 投票
0 回答
66 浏览

airflow - 远大期望验证失败,作业中止

我正在执行一项数据监控任务,我正在使用 Great Expectation 框架来监控数据的质量。我正在使用气流+大查询+巨大的期望来实现这一点。

我已经is_blocking:False为期望设置了参数,但是作业因异常而中止,因此下游任务无法执行。有没有办法发送通知但执行不会停止。

详细异常如下:

0 投票
0 回答
44 浏览

python - 对不同数组的相同列名寄予厚望

假设我们有具有以下模式的 PySpark 数据框:

请注意 struct3 struct4 有一个通用的列名 name1 (请参阅 参考资料 ** )。

问题我们如何对 name1 来自的列运行期望 struct3 ?对于使用哪个结构来运行期望,巨大的期望会感到困惑吗?特别是,以下命令是否会混淆远大的期望batch.expect_column_to_exist('name1')

即使我们将数据展平并有像 struct3.name1 and这样的列 struct4.name1 ,这是否仍然会混淆巨大的期望?

0 投票
0 回答
48 浏览

python - 期望很高的列名

列名有什么特别的规则吗?特别是,如果您有一个类似的列 a.age ?是否必须将其重命名为 a_age 才能对其产生期望?

0 投票
0 回答
27 浏览

sqlalchemy - Azure Datalake 的 SQLAlchemy

我需要将 Great Expectations(数据质量工具)连接到 ADLS(Azure Data Lake Storage)。为此,我们需要一个 SQLAlchemy。据我所知,没有 SQLAlchemy 方言可以连接到 ADLS。这个链接谈论一种方言(adls),但它在我的最后不起作用。错误:

我正在关注 SQLAlchemy 文档,但找不到具体的开始方法。任何有创建 SQLalchemy 方言经验的人都可以提供帮助吗?