9

我在原始文本中有大量意见(2500)。我想使用 scikit-learn 库将它们分成测试/训练集。用 scikit-learn 解决此任务的最佳方法是什么?谁能给我一个在测试/训练集中拆分原始文本的例子(可能我会使用 tf-idf 表示)。

4

1 回答 1

20

假设您的数据是一个字符串列表,即

data = ["....", "...", ]

然后,您可以使用train_test_split将其分成训练集(80%)和测试集(20%),例如:

from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size = 0.2)

不过,在你急于这样做之前,请通读这些文档。2500 不是“大型语料库”,您可能想要做一些类似 k 折交叉验证的事情,而不是单一的坚持拆分。

于 2014-09-11T17:57:11.670 回答