3

如何将.txt文件(语料库)读入pytorrch中的torchtext?

我只看到用于示例数据集的 data.Dataset 和用于 csv、json 和 tsv 的 data.TabularData。

https://github.com/pytorch/text#data

https://torchtext.readthedocs.io/en/latest/data.html#dataset

如果我使用这样的表格数据集读取它,它仍然有效: test_file = data.TabularDataset(path=input_filepath, format='csv', fields=[('text', data.Field())])

但是我的数据集不是表格的,所以我想看看是否有更好的选择。

4

1 回答 1

0

我建议编写一个快速脚本来读取您的语料库并将其转储到 JSON(那里有很多示例 然后将该 JSON 与 torchtext 一起使用。您将希望对数据有某种结构,以充分利用 torchtext(想想批处理/可迭代数据集)。

如果您不知道如何遍历数据集,请在此处查看我的其他答案

于 2021-11-01T02:22:45.117 回答