0

我做了一个慢速函数return_lema(tokens),它将标记列表转换为 lemas 列表。

  1. 当我把它放在这个例子 中的build_tokenizer(self)函数中时,它需要 37 秒。TfidfVectorizer

  2. 但是,然后我首先用 获取词汇表CountVectorizer,将词频矩阵中的标记输入到我的return_lema(tokens),然后执行TfidfTransformer,这需要 13 秒。

第二种方式更快,因为return_lema(tokens)不会得到重复的令牌。但是,现在我不能做正确的min_dfmax_dfCountVectorizer.

有没有办法让我的return_lema(tokens)某个地方进入TfidfVectorizer流程,这样在执行之前不需要一个一个文档,而是最终的特征词汇min_dfmax_df

4

0 回答 0