python - 拆分训练和测试数据

翻译自：https://stackoverflow.com/questions/66408031 2021-02-28T10:27:49.407

59 次

我有一个大约 15,500 行的数据集。数据集由两列组成：文本列（自变量）和输出（因变量）。输出具有二进制值（即 0 和 1）。大约 9500 行具有输出列的值（即我可以将其用于培训目的），其余 6000 行（没有输出列值）我想将其用于测试目的。所有行 (15500) 都在一个文件中。我创建了一个模型定义文件，其中我使用parallel_CNN 编码器作为文本列。我使用以下命令运行来训练和测试数据集：

ludwig experiment --dataset dataset_name.csv --config_file model_definitions.yml

现在的问题是我没有告诉程序使用前 9500 行来训练程序并使用剩余的行来测试模型。Ludwig 有什么方法可以让我通过任何参数来判断哪些行数用于训练，哪些行应该用于测试？还是有更好的方法来完成同样的任务？

python - 拆分训练和测试数据

0 回答 0

Related

Reference