6

我有什么方法可以使用scikit-learn 中的文本CountVectorizer或参数从我的文本文档中保留标点符号 !、?、" 和 ' ?TfidfVectorizer

4

1 回答 1

12

您应该token_pattern在实例化矢量化器时自定义参数。例如:

vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")
于 2016-08-31T19:38:09.410 回答