问题标签 [great-expectations]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
114 浏览

python - Great_Expectations Apache Spark 上的数据分析未生成预期的套件

我一直在填写使用 Great_Expectations 'BasicSuiteBuilderProfiler' 创建轻量级数据配置文件的指南 以下段落描述了如何使用 Great_Expectations 数据分析器

分析与远大期望有何关系?

您可能已经或可能尚未使用 Great Expectations 附带的内置分析功能,特别是在运行套件脚手架命令时。这会使用我们的 BasicSuiteBuilderProfiler 加载一个样板笔记本,它会根据一些轻量级分析自动生成一个 Expectation Suite。例如,如果我们的分析器发现一个列没有 NULL 值,它将创建一个 expect_column_values_to_not_be_null 期望。或者,如果它确定一列只包含来自特定值集的字符串,比如“apple”、“pear”、“orange”,它将创建一个相应的值集期望: expect_column_values_to_be_in_set(column=”fruit”, values=( “苹果”、“梨”、“橙”))。知道了?

但是,当我在我的 Apache Spark 平台上使用探查器时,如下所示:

当我运行代码时,validation_result2我得到以下输出格式:

我希望探查器生成

有人可以让我知道我错在哪里吗?

0 投票
2 回答
148 浏览

great-expectations - Great Expectations - 对 PostgreSQL 表的特定子集运行验证

我对《远大前程》很陌生-并且有一个问题。本质上我有一个 PostgreSQL 数据库,每次我运行我的数据管道时,我都想根据一些键来验证 PostgreSQL 表的特定子集。例如:如果数据管道每天都运行,则将是一个名为 current_batch 的字段。以下查询将进行验证:

SELECT * FROM jobs WHERE current_batch = <input_batch>。

我不确定完成此操作的最佳方法。我是一个使用 v3-api 的人,对使用检查点还是验证器有点困惑。我假设我想使用一个检查点,但我似乎无法弄清楚如何创建一个检查点,但只验证 PostgreSQL 数据源的特定子集。

任何帮助或指导将不胜感激。

谢谢,

0 投票
1 回答
73 浏览

airflow - 气流 - 远大的期望 - 获取/设置配置变量

我目前正在尝试使用 Python 数据验证包“Great Expectations”。

我目前正在使用 GreatExpectationsOperator 调用特定数据源(PostgreSQL 数据源)上的期望套件。

我想弄清楚的是如何存储和获取我的数据源凭据。对于使用 PostgreSQL 的其他操作,我一直在使用 PostgreSQL 连接来存储数据库凭据并使用 PostgreSQL 挂钩与数据库进行交互。然而,由于期望很高,postgreSQL 连接详细信息存储在 config_variables.yaml 中的 Great Expectations 上下文中。我在创建我的 dockerfile 时尝试使用 ENV 变量并将它们用作凭据并且它可以工作,但我试图找到一种更清洁的方法,可能使用我现有的 PostgreSQL 连接详细信息用于数据源。

网上似乎没有太多关于如何完成此操作的详细信息,因此非常感谢任何帮助。

谢谢,

0 投票
1 回答
247 浏览

airflow - Airflow - Great Expectations - 将评估参数发送到 GreatExpectationsOperator

对于在气流中使用 GreatExpectations 的任何人,有谁知道是否可以通过气流 GreatExpectationsOperator 发送评估参数?我目前正在尝试这个并收到错误:

airflow.exceptions.AirflowException: 无效的参数被传递给 GreatExpectationsOperator (task_id: my_task)。无效参数为:**kwargs: {'evaluation_parameters': {}}

谢谢,

0 投票
1 回答
51 浏览

python-3.x - _pandas 中的意外关键字参数“_metrics”用于具有很高期望 v3 api 的自定义期望?

我正在尝试使用 Great Expectations v3 api 创建一个非常简单的期望:expect_column_values_to_be_positive。我正在使用 PandasExecutionEngine,我的数据资产是 pandas 数据框。

my_custom_expectation.py 位于 plugins/ 文件夹中。

这是我在 my_custom_expectation.py 中的代码:

然后在我的 jupyter notebook 中,我尝试创建我的期望:

但是,我收到以下错误:

我错过了什么吗?我按照这个例子来写我的期望/指标。

0 投票
0 回答
56 浏览

azure-databricks - 如何将 azure blob 存储从 databricks 笔记本添加到数据源?

我正在尝试使用我的 databricks 笔记本中的以下代码片段将 azure 存储帐户添加到我的数据源:

但是当我尝试通过运行添加此数据源时context.add_datasource(**datasource_config),我收到以下错误:

Unable to load Azure BlobServiceClient (it is required for InferredAssetAzureDataConnector).

我确定我正确地提供了 account_url 和凭据。因为如果我BlobServiceClient单独使用,我可以连接到存储帐户。

请帮忙。

0 投票
1 回答
371 浏览

python - 使用 Python Great Expectations 删除无效数据

我刚开始使用 Great Expectations 库,我想知道是否可以使用它从 Pandas DataFrame 中删除无效数据。如果可能的话,我该怎么做?我还想将无效数据插入 PostgreSQL 数据库。

我在文档和网络搜索中没有找到任何关于此的内容。

稍后编辑:澄清:我需要在这种情况下,例如在 DataFrame 中找到 5 行无效的行(例如 df.expect_column_values_to_not_be_null('age') 有 5 行为 null)从原始 DataFrame 中删除它们并插入它们在 PostgreSQL 错误表中

0 投票
1 回答
41 浏览

python - 对于 A 列中的每个值,B 列中应该只有一个值 - Pandas

我有一个数据框,如图所示:

在此处输入图像描述

我想要一个类似于ValueColumn 的输出。
这意味着对于列中的每个值,列A中只能有一个且只有一个值B
即使列A中的值重复,列中的值B也应该重复。
请帮忙

0 投票
0 回答
366 浏览

python - 如何为 Pandas 数据框创建 Great Expectations 检查点?

我的数据源配置如下所示:

通过以下命令成功创建了我的 Pandas 数据框和 batch_requests:

我的期望套件:

然后我正在创建验证器。

最后一个命令成功打印了我的数据框的 2 行。

然后我将期望添加到我的套件中。

然后我正在生成数据文档:

我的检查点看起来像:

但是这个命令

产生错误:

0 投票
1 回答
81 浏览

python - great_expectations:expect_column_values_to_match_json_schema 不将 json 模式作为输入

我正在尝试调用

expect_column_values_to_match_json_schema

按照

https://legacy.docs.greatexpectations.io/en/latest/autoapi/great_expectations/dataset/dataset/index.html#great_expectations.dataset.dataset.Dataset.expect_column_values_to_match_json_schema

但是我收到了这个错误

所以我尝试了

但后来我明白了

我怎样才能创建一个合适的 json 对象来提供给这个方法?