0

我有一个大约 15,500 行的数据集。数据集由两列组成:文本列(自变量)和输出(因变量)。输出具有二进制值(即 0 和 1)。大约 9500 行具有输出列的值(即我可以将其用于培训目的),其余 6000 行(没有输出列值)我想将其用于测试目的。所有行 (15500) 都在一个文件中。我创建了一个模型定义文件,其中我使用parallel_CNN 编码器作为文本列。我使用以下命令运行来训练和测试数据集:

ludwig experiment --dataset dataset_name.csv --config_file model_definitions.yml

现在的问题是我没有告诉程序使用前 9500 行来训练程序并使用剩余的行来测试模型。Ludwig 有什么方法可以让我通过任何参数来判断哪些行数用于训练,哪些行应该用于测试?还是有更好的方法来完成同样的任务?

4

0 回答 0