python-3.x - Azure 机器学习工作室中 CSV 文件中包含逗号的字符串数据的列分隔不准确

Question

但是，在本地的 Python 项目和/或 Azure ML Jupyter 笔记本中使用相同的数据集（从 ML Studio 导入的相同数据集 - 未单独导入到 Jupyter 笔记本），可以正确读取行数，并且进一步的逻辑也可以正常工作。

Jupyter 示例：

from azureml import Workspace
ws = Workspace()
ds = ws.datasets['The Enron Email Dataset (Minimal)']
emails_df = ds.to_dataframe()

本地示例：

import pandas as pd
emails_df = pd.read_csv('C:/enron-email-dataset/emails.csv', nrows=100)

这是 Azure ML Studio 中数据集可视化的样子

很明显，从保存的数据集转移到实验后它会变得一团糟，但我的问题是 - 解决它的最佳方法是什么？也许在我的 Python 代码中从 Azure BLOB 存储调用数据集？

编辑 1：从 CSV 文件中删除逗号也没有帮助。该数据集在 Jupyter 和本地运行良好，但在添加到实验时显得混乱。

编辑 2：删除回车导致数据集在实验中被正确可视化，但是这破坏了 Python 代码 ( email.parser )中的进一步文本预处理逻辑。我可以修改它以使其在不同的环境中工作。这可能是最好的。

0 回答 0