AllenNLP 的官方文档建议在配置文件中指定“validation_data_path”,但如果想从单一来源构建数据集,然后以给定的比例将其随机拆分为训练数据集和验证数据集怎么办?
AllenNLP 是否支持这一点?我将非常感谢您的意见。
AllenNLP 的官方文档建议在配置文件中指定“validation_data_path”,但如果想从单一来源构建数据集,然后以给定的比例将其随机拆分为训练数据集和验证数据集怎么办?
AllenNLP 是否支持这一点?我将非常感谢您的意见。
AllenNLP 还没有这个功能,但我们正在做一些事情来实现它。
同时,这是我为 VQAv2 阅读器所做的:https ://github.com/allenai/allennlp-models/blob/main/allennlp_models/vision/dataset_readers/vqav2.py#L354
此阅读器支持 Python 切片语法,例如,您可以指定 a data_path
as"my_source_file[:1000]"
以从my_source_file
. 您还可以通过设置提供多个路径data_path: ["file1", "file2[:1000]", "file3[1000-"]]
。您可能可以窃取该文件中的前两个块(第 354 到 369 行)并将它们放入您自己的数据集阅读器中以获得相同的结果。