0

我正在做一个文本分析(主题建模),当我运行它时CountVectorizer,我得到一堆与我的需求完全无关的数字、日期和位置。我以为我会提供预处理功能,但是用于预处理的 scikit-learn 页面似乎没有我在构建预处理器时需要的任何信息。

4

1 回答 1

0

您可以更改token_pattern中的参数CountVectorizer

令牌模式是表示什么构成“令牌”的正则表达式,仅在analyzer == 'word'. 令牌模式的类型是字符串。

默认token_pattern=r"(?u)\b\w\w+\b"。默认的正则表达式选择 2 个或更多字母数字字符的标记(标点符号被完全忽略并始终被视为标记分隔符)。您可以更改它以满足您的需求(例如忽略日期)。

于 2016-02-18T08:42:17.340 回答