2

我有一个 pandas 或 pyspark 数据框df,我想在其中运行期望。我已经在内存中有我的数据框。如何将我的数据框转换为 great_expectations 数据集?

这样我就可以做例如:

df.expect_column_to_exist("my_column")
4

2 回答 2

5
import great_expectations as ge

对于熊猫:

df_ge = ge.from_pandas(df)

或者

df_ge = ge.dataset.PandasDataset(df)

对于 pyspark:

df_ge = ge.dataset.SparkDFDataset(df)

现在你可以运行你的期望

df_ge.expect_column_to_exist("my_column")

请注意,great_expectations SparkDFDataset 不会从 pyspark DataFrame 继承函数。您可以通过以下方式访问原始 pyspark DataFramedf_ge.spark_df

于 2020-10-07T09:55:04.143 回答
0

另请参阅 Great Expectations 文档/教程,了解使用以下方法转换 Pandas DF 的替代版本ge.from_pandashttps ://docs.greatexpectations.io/en/latest/guides/tutorials/explore_expectations_in_a_notebook.html

于 2020-10-07T19:16:23.390 回答