3

我在 Azure ML Studio 中的实验中使用了Enron 电子邮件数据集中的前 100 行,但是保存的数据集对象填充了奇数的 4.8K 行而不是 100 行。这一定是由于“字符串数据上的列分隔不准确包含逗号”的问题,我理解。

但是,在本地的 Python 项目和/或 Azure ML Jupyter 笔记本中使用相同的数据集(从 ML Studio 导入的相同数据集 - 未单独导入到 Jupyter 笔记本),可以正确读取行数,并且进一步的逻辑也可以正常工作。

Jupyter 示例:

from azureml import Workspace
ws = Workspace()
ds = ws.datasets['The Enron Email Dataset (Minimal)']
emails_df = ds.to_dataframe()

本地示例:

import pandas as pd
emails_df = pd.read_csv('C:/enron-email-dataset/emails.csv', nrows=100)

这是 Azure ML Studio 中数据集可视化的样子 在此处输入图像描述

很明显,从保存的数据集转移到实验后它会变得一团糟,但我的问题是 - 解决它的最佳方法是什么?也许在我的 Python 代码中从 Azure BLOB 存储调用数据集?

编辑 1:从 CSV 文件中删除逗号也没有帮助。该数据集在 Jupyter 和本地运行良好,但在添加到实验时显得混乱。

编辑 2:删除回车导致数据集在实验中被正确可视化,但是这破坏了 Python 代码 ( email.parser )中的进一步文本预处理逻辑。我可以修改它以使其在不同的环境中工作。这可能是最好的。 在此处输入图像描述

4

0 回答 0