1

我正在进行文本分类,并将处理我的训练数据中未捕获的单词,这意味着该单词应被视为未知。

有谁知道如果训练数据中不存在某个特定单词,scikit 的交叉验证是否会将其视为看不见?

或者 scikit 是否会将所有单词都视为特征,即使它不在训练集中?

4

1 回答 1

3

如果您在包含特征提取器(例如 CountVectorizer 或 TfidfVectorizer)和分类器的管道上进行交叉验证,那么一切都将自动开箱即用:仅出现在火车 测试集将被忽略(未映射到向量表示中的维度)。

在有关文本特征提取的文档中,有更多关于如何使用vocabulary_属性将特征名称映射到维度的详细信息。

还有一个示例显示了如何交叉验证包含特征提取组件和分类器的管道

编辑:固定火车/测试错字

编辑 2:修复了示例的断开链接。

于 2013-01-16T17:50:01.893 回答