0

Pandas 的 read_csv 也适用于 csv.gz。

有没有办法用 PyTorch 实现类似的效果?https://torchtext.readthedocs.io/en/latest/data.html#torchtext.data.Dataset似乎没有这样的选择。

4

1 回答 1

1

TLDR:不,TabularDataset 不支持此功能

torchtext.data.TabularDataset使用csv.reader

在 Python 中对 gzipped 文件使用 csvreader建议如果您使用 . 打开文件gzip.open,则 csv.reader 可以读取它。

但是, TabularDataset 要求提供文件路径,而不是文件指针,因此深入研究源代码,它使用

io.open(os.path.expanduser(path), encoding="utf8")

打开文件路径。由于 .gz 不是 utf8,因此无法正确读取文件。

于 2020-05-08T15:56:15.533 回答