问题标签 [great-expectations]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 寄予厚望:如果未提供 root_directory,则 base_directory 必须是绝对路径
这是关于 Python 中的 Great Expectations 模块,主要用于数据质量检查(我发现他们的文档不足)。所以我一直在尝试在我的笔记本上设置数据上下文(使用本地数据源) - 如中所述:
以下是我的代码:
这是我得到的错误:
base_directory must be an absolute path if root_directory is not provided
我究竟做错了什么?
python-3.x - Great Expectations 自定义期望不按要求忽略空值
我们正在使用的库的版本:
请注意,我们自己从 Snowflake 中获取数据,然后将其数据框输入到 Great Expectations 中。我知道 GE 有一个 Snowflake 数据源,它在我的列表中以添加它。但我认为即使不使用该数据源,此设置也应该有效。
我们有以下 Great Expectations 数据上下文配置:
CustomPandasDataset
定义为:
并称为:
稍后我们像这样验证数据上下文:
很多时候,列a
和b
在null
我们的数据中。鉴于我已经ignore_row_if='any_value_is_missing'
在自定义期望上设置了标志,我期望null
在任何列中具有值的行a
、b
或c
被跳过。但是 Great Expectations 并没有跳过它们,而是将它们添加到unexpected
输出的 ,或“失败”字段中:
我不确定为什么会这样。在 Great Expectations源代码中,执行以下multicolumn_map_expectation
操作:
我将其解释为忽略包含null
行(不将它们添加到unexpected
列表中并且不使用它们来确定percent_success
)。我pdb
在我们的代码中删除了 a 并验证了我们调用期望的数据帧可以以正确的方式进行操作以获得“合理的”数据 ( test_df.isnull().any(axis=1)
),但由于某种原因,Great Expectations 允许这些空值通过。有谁知道为什么?
ruamel.yaml - 未能安装大期望。错误:无法卸载“ruamel-yaml”
当我试图在终端上安装 great_expectation 时,
'pip install great_expectations'
我收到了这个错误:
安装收集的软件包:ruamel.yaml、jsonpatch、altair、伟大的期望尝试卸载:ruamel.yaml 找到现有安装:ruamel-yaml 0.15.87 错误:无法卸载“ruamel-yaml”。这是一个 distutils 安装的项目,因此我们无法准确确定哪些文件属于它,这只会导致部分卸载。有什么建议可以解决这个问题吗?非常感谢
great-expectations - 无法通过 cli 和 test_yaml_config 在 great_expections 中将数据源设置为 aws s3
great_expectations 设置:
创建了一个新的虚拟环境安装了所需的包:
更新配置中的数据源:great_expectations.yml
重现此问题的步骤:
出现以下错误:
无法连接到主机 s3.amazonaws.com:443 ssl:True [SSLCertVerificationError: (1, '[SSL: CERTIFICATE_VERIFY_FAILED] 证书验证失败:无法获取本地颁发者证书 (_ssl.c:1123)')]
注意:我已准备好 aws 的设置。~/.aws 具有以下内容的凭据文件。
使用与上述相同的设置,
注意:下面的代码工作正常:
因此,通过 ge 库的连接阻碍了方式。
使用 test_yaml_config 的 V3 batch_request API 面临同样的问题。
使用版本 0.13.10
对此被阻止,请提出解决此问题的方法。谢谢!
azure-machine-learning-service - 如何从 PythonScriptStep 访问输出文件夹?
我是新手azure-ml
,我的任务是为几个管道步骤进行一些集成测试。我准备了一些输入测试数据和一些预期的输出数据,我将它们存储在'test_datastore'
. 以下示例代码是我想要做的简化版本:
我想:
- 我
data_prep_step
要跑, - 让它在我的路径上存储一些数据
data_ref
),并且 - 然后我想在管道之外访问这些存储的数据
但是,我在文档中找不到有用的功能。任何指导将不胜感激。
python - 如何导入 Great Expectations 自定义数据源 ValueError: no package specified for (required for relative module names)
我的 Great Expectations 项目有这个文件夹结构:
datasource/__init__.py
:
dataset/__init__.py
:
great_expectations.yml
:
除了 python 相对导入让我非常困惑之外,我还不确定在运行 great_expectations 命令时使用哪个参考目录。当我尝试时:great_expectations suite new
我收到错误消息:ValueError: no package specified for '.datasource' (required for relative module names)
我认为上面的 .yml 仍然是在尝试了下面的所有内容之后要走的路。我猜对于需要在init或其他地方处理的相对导入有一些我不理解的东西。
编辑:我也试过:
The module: 'great_expectations.datasource' does not contain the class: 'OracleDatasource'.
我认为此消息意味着它正在查找 great_expectations 库,我通过尝试包含在库中的类名来确认这一点。
和这个:
No module named "datasource" could be found in the repository. Please make sure that the file, corresponding to this package and module, exists and that dynamic loading of code modules, templates, and assets is supported in your execution environment. This error is unrecoverable.
我认为这意味着它正在图书馆之外寻找但找不到文件。
和这个:
No module named "datasource.oracle_datasource" could be found in the repository. Please make sure that the file, corresponding to this package and module, exists and that dynamic loading of code modules, templates, and assets is supported in your execution environment. This error is unrecoverable.
我认为这意味着它正在图书馆之外寻找但找不到文件。
python - 如何在 Great Exceptions(数据验证工具)中生成新的错误报告或访问最后一个?
我最近熟悉了Great Expectations,这是一个很棒的数据验证库,并且能够快速为示例数据源创建自己的验证套件并查看其输出。创建检查点并运行后,命令行上只显示预期的整体成功率,但我看不到 web 报告 UI。我注意到在编辑期望时,我可以再次运行笔记本以查看所做更改的报告,但我想知道是否有更快的方法来执行此操作。
python - 如何将 CustomDataAsset 传递给 DataContext 以在批处理上运行自定义期望?
我有CustomPandasDataset
一个定制的期望
我想对expect_column_max_value_to_match_datetime
给定的熊猫数据框运行期望
我从 DataContext 得到的,现在当我对这批运行期望时
我收到以下错误
根据文档,我dataset_class=CustomPandasDataset
在构建 GreatExpectations 数据集时指定了该属性,确实在作品上运行了预期, df_ge
但不是在数据批次上运行。
python - 如何对 docker 寄予厚望
我尝试了几个步骤,但遇到了问题。
下面是我的项目结构
在上面的结构中,GE-ToolProject 是父文件夹,它包含 great_expectations 文件夹结构,它在运行 great_expectations init 命令时自动创建,我添加的是 Expectations.py 文件,我在其中编写了一个 python 代码来运行期望并生成一个博士。
这里我的数据源是 redshift 数据库,我正在运行自定义查询来获取数据集。
dockerfile 包含:
requirements.txt 包含
我想从 docker 运行 Expectations.py 文件。
当我尝试构建一个低于错误的 docker 图像时
apache-spark - ValueError:root_directory 必须是绝对路径:从 Synapse Workspace 访问 ADLS 中的目录时出错
在 Apache Spark 中尝试使用以下 PySpark 代码访问 ADLS 目录时出现错误:
当我尝试访问目录时出现上述错误的代码如下:
当我将代码更改为
我收到以下错误消息:
当我输入以下代码
我收到错误消息:
但是,我没有名为 '/expectations 的目录
作为旁注,我正在尝试执行 Great_Expectations。