问题标签 [great-expectations]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Great_Expectations Apache Spark 上的数据分析未生成预期的套件
我一直在填写使用 Great_Expectations 'BasicSuiteBuilderProfiler' 创建轻量级数据配置文件的指南 以下段落描述了如何使用 Great_Expectations 数据分析器
分析与远大期望有何关系?
您可能已经或可能尚未使用 Great Expectations 附带的内置分析功能,特别是在运行套件脚手架命令时。这会使用我们的 BasicSuiteBuilderProfiler 加载一个样板笔记本,它会根据一些轻量级分析自动生成一个 Expectation Suite。例如,如果我们的分析器发现一个列没有 NULL 值,它将创建一个 expect_column_values_to_not_be_null 期望。或者,如果它确定一列只包含来自特定值集的字符串,比如“apple”、“pear”、“orange”,它将创建一个相应的值集期望: expect_column_values_to_be_in_set(column=”fruit”, values=( “苹果”、“梨”、“橙”))。知道了?
但是,当我在我的 Apache Spark 平台上使用探查器时,如下所示:
当我运行代码时,validation_result2
我得到以下输出格式:
我希望探查器生成
有人可以让我知道我错在哪里吗?
great-expectations - Great Expectations - 对 PostgreSQL 表的特定子集运行验证
我对《远大前程》很陌生-并且有一个问题。本质上我有一个 PostgreSQL 数据库,每次我运行我的数据管道时,我都想根据一些键来验证 PostgreSQL 表的特定子集。例如:如果数据管道每天都运行,则将是一个名为 current_batch 的字段。以下查询将进行验证:
SELECT * FROM jobs WHERE current_batch = <input_batch>。
我不确定完成此操作的最佳方法。我是一个使用 v3-api 的人,对使用检查点还是验证器有点困惑。我假设我想使用一个检查点,但我似乎无法弄清楚如何创建一个检查点,但只验证 PostgreSQL 数据源的特定子集。
任何帮助或指导将不胜感激。
谢谢,
airflow - 气流 - 远大的期望 - 获取/设置配置变量
我目前正在尝试使用 Python 数据验证包“Great Expectations”。
我目前正在使用 GreatExpectationsOperator 调用特定数据源(PostgreSQL 数据源)上的期望套件。
我想弄清楚的是如何存储和获取我的数据源凭据。对于使用 PostgreSQL 的其他操作,我一直在使用 PostgreSQL 连接来存储数据库凭据并使用 PostgreSQL 挂钩与数据库进行交互。然而,由于期望很高,postgreSQL 连接详细信息存储在 config_variables.yaml 中的 Great Expectations 上下文中。我在创建我的 dockerfile 时尝试使用 ENV 变量并将它们用作凭据并且它可以工作,但我试图找到一种更清洁的方法,可能使用我现有的 PostgreSQL 连接详细信息用于数据源。
网上似乎没有太多关于如何完成此操作的详细信息,因此非常感谢任何帮助。
谢谢,
airflow - Airflow - Great Expectations - 将评估参数发送到 GreatExpectationsOperator
对于在气流中使用 GreatExpectations 的任何人,有谁知道是否可以通过气流 GreatExpectationsOperator 发送评估参数?我目前正在尝试这个并收到错误:
airflow.exceptions.AirflowException: 无效的参数被传递给 GreatExpectationsOperator (task_id: my_task)。无效参数为:**kwargs: {'evaluation_parameters': {}}
谢谢,
python-3.x - _pandas 中的意外关键字参数“_metrics”用于具有很高期望 v3 api 的自定义期望?
我正在尝试使用 Great Expectations v3 api 创建一个非常简单的期望:expect_column_values_to_be_positive。我正在使用 PandasExecutionEngine,我的数据资产是 pandas 数据框。
my_custom_expectation.py 位于 plugins/ 文件夹中。
这是我在 my_custom_expectation.py 中的代码:
然后在我的 jupyter notebook 中,我尝试创建我的期望:
但是,我收到以下错误:
我错过了什么吗?我按照这个例子来写我的期望/指标。
azure-databricks - 如何将 azure blob 存储从 databricks 笔记本添加到数据源?
我正在尝试使用我的 databricks 笔记本中的以下代码片段将 azure 存储帐户添加到我的数据源:
但是当我尝试通过运行添加此数据源时context.add_datasource(**datasource_config)
,我收到以下错误:
Unable to load Azure BlobServiceClient (it is required for InferredAssetAzureDataConnector).
我确定我正确地提供了 account_url 和凭据。因为如果我BlobServiceClient
单独使用,我可以连接到存储帐户。
请帮忙。
python - 使用 Python Great Expectations 删除无效数据
我刚开始使用 Great Expectations 库,我想知道是否可以使用它从 Pandas DataFrame 中删除无效数据。如果可能的话,我该怎么做?我还想将无效数据插入 PostgreSQL 数据库。
我在文档和网络搜索中没有找到任何关于此的内容。
稍后编辑:澄清:我需要在这种情况下,例如在 DataFrame 中找到 5 行无效的行(例如 df.expect_column_values_to_not_be_null('age') 有 5 行为 null)从原始 DataFrame 中删除它们并插入它们在 PostgreSQL 错误表中
python - 对于 A 列中的每个值,B 列中应该只有一个值 - Pandas
我有一个数据框,如图所示:
我想要一个类似于Value
Column 的输出。
这意味着对于列中的每个值,列A
中只能有一个且只有一个值B
。
即使列A
中的值重复,列中的值B
也应该重复。
请帮忙
python - 如何为 Pandas 数据框创建 Great Expectations 检查点?
我的数据源配置如下所示:
通过以下命令成功创建了我的 Pandas 数据框和 batch_requests:
我的期望套件:
然后我正在创建验证器。
最后一个命令成功打印了我的数据框的 2 行。
然后我将期望添加到我的套件中。
然后我正在生成数据文档:
我的检查点看起来像:
但是这个命令
产生错误:
python - great_expectations:expect_column_values_to_match_json_schema 不将 json 模式作为输入
我正在尝试调用
expect_column_values_to_match_json_schema
按照
但是我收到了这个错误
所以我尝试了
但后来我明白了
我怎样才能创建一个合适的 json 对象来提供给这个方法?