“great-expectations”的相关标签问题

0 投票

0 回答

139 浏览

airflow - “数据源”对象没有属性“get_batch”

我正在尝试将巨大的期望整合到气流管道中。我按照这个网址进行整合。但是我得到错误对象没有属性但是上下文实例具有该属性。这是我的代码。

错误日志

airflow great-expectations

2021-12-12T14:06:23.850

0 投票

1 回答

93 浏览

apache-spark - 如何在 Databricks（社区版）上本地保存 Great_Expectations 套件

我可以将 Great_Expectations 套件保存到我的 Databricks 社区版上的 tmp 文件夹中，如下所示：

但问题是，当我重新启动集群时，tmp 文件夹中的 json 文件更长。我猜这是因为驻留在 tmp 文件夹中的文件是临时的。但是，如果我尝试将其保存为我知道 Databricks 上存在的文件夹，例如 /FileStore/tables，我会收到错误消息：

有人可以让我知道如何在 Databricks 上本地保存。

2021-12-17T15:49:42.433

0 投票

1 回答

81 浏览

python - 如何将期望结果执行到天蓝色函数中？

我正在尝试使用 Great_expectations 文件夹部署 Azure 函数。该函数正在本地系统中执行，但在门户中执行该函数时遇到以下错误。

结果：失败异常：OSError：[Errno 30] 只读文件系统：'./tmp' 堆栈：文件“/azure-functions-host/workers/python/3.7/LINUX/X64/azure_functions_worker/dispatcher.py”，第 405 行，在 _handle__invocation_request invocation_id、fi_context、fi.func、args) 文件“/usr/local/lib/python3.7/concurrent/futures/thread.py”，第 57 行，运行结果 = self.fn(*self .args, **self.kwargs) 文件“/azure-functions-host/workers/python/3.7/LINUX/X64/azure_functions_worker/dispatcher.py”，第 612 行，在 _run_sync_func func)(params) 文件“/azure- functions-host/workers/python/3.7/LINUX/X64/azure_functions_worker/extension.py”，第 215 行，在 _raw_invocation_wrapper 结果 = 函数（**args）文件“/home/site/wwwroot/GETrigger/main.py”，第 54 行，在主 os.chmod('./tmp',0o777)

python azure-functions great-expectations

2022-01-17T07:03:35.640

0 投票

0 回答

18 浏览

great-expectations - 寄予厚望：在验证时指定目标模式

问题：

我正在尝试在名为“datalake”的 postgres 模式中运行一个简单的验证，并使用验证器validator.expect_table_row_count_to_equal_other_table( other_table_name="staging.github_issues" )

我注意到伟大的期望总是在运行验证时使用公共模式，并且没有考虑使用表名指定的模式。

我试过的：

我什至尝试将其指定为默认的 search_path，用户 im 使用验证，但它仍然在公共模式中运行，我无法找到一种方法来指定从哪个模式获取验证器的其他表值的计数。

欢迎任何帮助和经验。

great-expectations

2022-01-27T21:24:27.293

0 投票

0 回答

51 浏览

python - 使用 Bigquery 测试 yaml 的巨大期望

我在测试对 bigquery 寄予厚望的 yaml 时遇到了麻烦。我遵循了官方文档并得到了这段代码

该代码有效，但需要花费很多时间。我做了深度调试，发现问题是它想在 bigquery 中检索项目的所有数据集以及所有数据集中的所有表。我们有 200 多个数据集和数千个表。我还没有找到一种方法来过滤我需要的唯一数据集或更具体地说是表格。我认为 connection_string 应该这样做，但没有。

在我的深度调试中，得到了inferred_asset_sql_data_connector.py模块。我看到它应该过滤 schema_name 问题是它总是无。并且不知道如何将它作为我想要的数据集传递。

我也按照本指南进行了自省，但遇到了其他错误。

如果我将 SimpleSqlalchemyDatasource 作为 class_name 我会收到以下错误。而且我不知道如何在期望很高的情况下为 sqlalchemy 中的 bq 初始化引擎。

python google-bigquery data-quality great-expectations

2022-02-01T10:33:54.460

0 投票

0 回答

25 浏览

azure-databricks - 如何将 Great Expectations Html 验证结果保存到 Databricks DBFS 或 Azure Blob

前段时间我问了一个问题

如何将远大的期望结果从 Apache Spark 保存到文件中 - 使用数据文档

如何将远大的期望结果从 Apache Spark 保存到文件中 - 使用数据文档

答案集中在查看 Databricks 中的结果，但是我想知道如何将 Html 结果保存到文件中 - 无论是在 Databricks DBFS 上还是在 Azure ADLS / Blob 上。

亚历克斯·奥特（Alex Ott）提到了以下内容：

如果您不使用 Databricks，则可以将数据呈现为 HTML 并将其存储为存储在某处的文件

但是，我不确定他是否建议如果我不使用 Databricks 就无法存储文件？

无论如何，有人可以告诉我如何存储/保存文件：

我尝试了下面的代码，但收到错误消息：

错误指出：

我使用的代码如下：

有什么想法吗？

azure-databricks great-expectations

2022-02-01T12:10:08.047

0 投票

1 回答

28 浏览

python-3.x - 无法初始化雪花数据源

我正在尝试使用“great_expectations”库访问雪花数据源。

以下是我到目前为止所尝试的：

在执行上述代码之前，我启动了 great_expectation：

但我收到以下错误：

我究竟做错了什么？

python-3.x sqlalchemy ruamel.yaml great-expectations snowflake-connector

2022-02-08T07:02:17.393

0 投票

1 回答

31 浏览

python - 节省自定义查询的巨大期望

创建批处理并使用自定义查询不会将查询保存在 json 文件中

例如：

只会产生一个包含期望值的json，而不是batch_kwargs。

是否有配置来保存查询本身？

python sqlalchemy great-expectations

2022-02-11T01:03:49.837

0 投票

0 回答

15 浏览

python - great_expectations 使用 batch_spec_passthrough 添加检查点

在great_expectations中，我正在尝试将检查点添加到上下文中。这批数据是指存储在 s3 上的 csv 文件，其中有一个半列作为分隔符。我正在使用 PySpark 作为连接器加载批次。我尝试使用以下代码：

首先，我定义了一个批处理请求来检索数据。这里推荐使用batch_spec_passthrough来指定分隔符：

然后我指定了我想使用的期望套件：

此时我定义了检查点：

最后，我将检查点添加到数据上下文中，然后运行它。

问题是当我运行检查点时，我得到一个错误，表明批处理数据没有以正确的方式加载。没有任何期望起作用，因为似乎没有使用半列作为分隔符加载批处理数据，因此产生了单列数据框。这是我在运行检查点时看到的错误之一：

"exception_message": "错误：BatchData 中的列 "GR" 不存在。"

但是，当我不将检查点添加到上下文中而只是运行检查点时，一切都很好。所以以下命令有效：

有什么帮助吗？

python dataframe validation great-expectations

2022-02-21T16:16:45.363

0 投票

0 回答

10 浏览

great-expectations - MissingConfigVariableError while creating DataContext in Great Expectations

Unable to create DataContext with the following configuration.I am try to use a Databricks spark df datasource and in house DB as storeBackendDefaults
I get the MissingConfigVariableError exceptions
Could some explain what I am missing

#xA;

great-expectations

2022-02-22T14:18:50.187

问题标签 [great-expectations]

Reference