我在原始文本中有大量意见(2500)。我想使用 scikit-learn 库将它们分成测试/训练集。用 scikit-learn 解决此任务的最佳方法是什么?谁能给我一个在测试/训练集中拆分原始文本的例子(可能我会使用 tf-idf 表示)。
问问题
18804 次
1 回答
20
假设您的数据是一个字符串列表,即
data = ["....", "...", ]
然后,您可以使用train_test_split将其分成训练集(80%)和测试集(20%),例如:
from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size = 0.2)
不过,在你急于这样做之前,请通读这些文档。2500 不是“大型语料库”,您可能想要做一些类似 k 折交叉验证的事情,而不是单一的坚持拆分。
于 2014-09-11T17:57:11.670 回答