python - 有没有办法使用 MLflow 记录数据集的描述性统计信息？

Question

有没有办法使用 MLflow 记录数据集的描述性统计信息？如果有的话可以分享一下细节吗？

score 6 · Accepted Answer

一般来说，您可以使用 mlflow_log_artifact() 函数记录代码中的任意输出。从文档：

mlflow.log_artifact(local_path, artifact_path=None) 将本地文件或目录记录为当前活动运行的工件。

参数：
local_path – 要写入的文件的路径。 artifact_path – 如果提供的话，artifact_uri 中要写入的目录。

例如，假设您在 pandas 数据框中有统计信息，stat_df.

## Write csv from stats dataframe
stat_df.to_csv('dataset_statistics.csv')

## Log CSV to MLflow
mlflow.log_artifact('dataset_statistics.csv')

这将显示在跟踪 UI 中此 MLflow 运行的工件部分下。如果您进一步浏览文档，您会发现您还可以记录整个目录和其中的对象。一般来说，MLflow 为您提供了很大的灵活性——您写入文件系统的任何内容都可以使用 MLflow 进行跟踪。当然，这并不意味着你应该这样做。:)

1 回答 1