0

AllenNLP 的官方文档建议在配置文件中指定“validation_data_path”,但如果想从单一来源构建数据集,然后以给定的比例将其随机拆分为训练数据集和验证数据集怎么办?

AllenNLP 是否支持这一点?我将非常感谢您的意见。

4

1 回答 1

1

AllenNLP 还没有这个功能,但我们正在做一些事情来实现它。

同时,这是我为 VQAv2 阅读器所做的:https ://github.com/allenai/allennlp-models/blob/main/allennlp_models/vision/dataset_readers/vqav2.py#L354

此阅读器支持 Python 切片语法,例如,您可以指定 a data_pathas"my_source_file[:1000]"以从my_source_file. 您还可以通过设置提供多个路径data_path: ["file1", "file2[:1000]", "file3[1000-"]]。您可能可以窃取该文件中的前两个块(第 354 到 369 行)并将它们放入您自己的数据集阅读器中以获得相同的结果。

于 2021-03-13T01:26:41.250 回答