machine-learning - 如何使用 scikit 交叉验证模块将数据（原始文本）拆分为测试/训练集？

Question

我在原始文本中有大量意见（2500）。我想使用 scikit-learn 库将它们分成测试/训练集。用 scikit-learn 解决此任务的最佳方法是什么？谁能给我一个在测试/训练集中拆分原始文本的例子（可能我会使用 tf-idf 表示）。

score 20 · Accepted Answer

假设您的数据是一个字符串列表，即

data = ["....", "...", ]

然后，您可以使用train_test_split将其分成训练集（80%）和测试集（20%），例如：

from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size = 0.2)

不过，在你急于这样做之前，请通读这些文档。2500 不是“大型语料库”，您可能想要做一些类似 k 折交叉验证的事情，而不是单一的坚持拆分。

1 回答 1