我有一个 pandas 或 pyspark 数据框df
,我想在其中运行期望。我已经在内存中有我的数据框。如何将我的数据框转换为 great_expectations 数据集?
这样我就可以做例如:
df.expect_column_to_exist("my_column")
我有一个 pandas 或 pyspark 数据框df
,我想在其中运行期望。我已经在内存中有我的数据框。如何将我的数据框转换为 great_expectations 数据集?
这样我就可以做例如:
df.expect_column_to_exist("my_column")
import great_expectations as ge
对于熊猫:
df_ge = ge.from_pandas(df)
或者
df_ge = ge.dataset.PandasDataset(df)
对于 pyspark:
df_ge = ge.dataset.SparkDFDataset(df)
现在你可以运行你的期望
df_ge.expect_column_to_exist("my_column")
请注意,great_expectations SparkDFDataset 不会从 pyspark DataFrame 继承函数。您可以通过以下方式访问原始 pyspark DataFrame
df_ge.spark_df
另请参阅 Great Expectations 文档/教程,了解使用以下方法转换 Pandas DF 的替代版本ge.from_pandas
:https ://docs.greatexpectations.io/en/latest/guides/tutorials/explore_expectations_in_a_notebook.html