我做了一个慢速函数return_lema(tokens)
,它将标记列表转换为 lemas 列表。
当我把它放在这个例子 中的
build_tokenizer(self)
函数中时,它需要 37 秒。TfidfVectorizer
但是,然后我首先用 获取词汇表
CountVectorizer
,将词频矩阵中的标记输入到我的return_lema(tokens)
,然后执行TfidfTransformer
,这需要 13 秒。
第二种方式更快,因为return_lema(tokens)
不会得到重复的令牌。但是,现在我不能做正确的min_df
或max_df
像CountVectorizer
.
有没有办法让我的return_lema(tokens)
某个地方进入TfidfVectorizer
流程,这样在执行之前不需要一个一个文档,而是最终的特征词汇min_df
表max_df
?