Pandas 的 read_csv 也适用于 csv.gz。
有没有办法用 PyTorch 实现类似的效果?https://torchtext.readthedocs.io/en/latest/data.html#torchtext.data.Dataset似乎没有这样的选择。
Pandas 的 read_csv 也适用于 csv.gz。
有没有办法用 PyTorch 实现类似的效果?https://torchtext.readthedocs.io/en/latest/data.html#torchtext.data.Dataset似乎没有这样的选择。
TLDR:不,TabularDataset 不支持此功能
torchtext.data.TabularDataset使用csv.reader。
在 Python 中对 gzipped 文件使用 csvreader建议如果您使用 . 打开文件gzip.open
,则 csv.reader 可以读取它。
但是, TabularDataset 要求提供文件路径,而不是文件指针,因此深入研究源代码,它使用
io.open(os.path.expanduser(path), encoding="utf8")
打开文件路径。由于 .gz 不是 utf8,因此无法正确读取文件。