python - 与 Iris 数据集的编码差异

Question

将数据集下载为 iris.data 后，我将其重命名为 iris.data.txt。我试图在 SO 上规避这个报告的错误：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 8: invalid continuation byte

阅读后，我尝试了这个：

dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="ISO-8859-1")

这部分解决了错误，但有些行仍然是垃圾。

然后我尝试用Sublime打开它，用utf-8编码保存，然后dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="utf-8")

但这也不能解决问题。我在 Mac OS 上运行 Python 3。什么可能使数据直接可读？

[编辑]：数据类型为：Web 存档。在 Spyder 中，该文件显示为 iris.data.webarchive

如果我尝试dataset = pd.read_csv('iris.data.webarchive', header=None)，它会给出这个回溯：

ParserError: Error tokenizing data. C error: Expected 1 fields in line 2, saw 5

如果我尝试dataset = pd.read_csv('iris.data', header=None)，它会给FileNotFoundError: File b'iris.data' does not exist

score 0 · Accepted Answer

我发现了我的菜鸟错误。我必须将页面保存为“源”而不是“webarchive”（这是默认的 Mac 设置）

1 回答 1