machine-learning - SKLearn 交叉验证：

Question

我正在进行文本分类，并将处理我的训练数据中未捕获的单词，这意味着该单词应被视为未知。

有谁知道如果训练数据中不存在某个特定单词，scikit 的交叉验证是否会将其视为看不见？

或者 scikit 是否会将所有单词都视为特征，即使它不在训练集中？

score 3 · Accepted Answer

如果您在包含特征提取器（例如 CountVectorizer 或 TfidfVectorizer）和分类器的管道上进行交叉验证，那么一切都将自动开箱即用：仅出现在火车测试集将被忽略（未映射到向量表示中的维度）。

在有关文本特征提取的文档中，有更多关于如何使用vocabulary_属性将特征名称映射到维度的详细信息。

编辑：固定火车/测试错字

编辑 2：修复了示例的断开链接。

1 回答 1