1

我在看:

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

它只是说:

tokenizer:可调用或无(默认)覆盖字符串标记化步骤,同时保留预处理和 n-gram 生成步骤。仅在分析器 == 'word' 时适用。

函数应该返回什么?单词列表?是否有示例显示此函数必须返回的数据结构?

编辑:例如,如果我正在编写自己的自定义标记器函数,它应该返回什么。

4

0 回答 0