scikit-learn - 作为参数传递给 Tfidfvectorizer 的标记器的预期返回类型是什么

翻译自：https://stackoverflow.com/questions/48072700 2018-01-03T07:04:13.873

300 次

1

我在看：

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

它只是说：

tokenizer：可调用或无（默认）覆盖字符串标记化步骤，同时保留预处理和 n-gram 生成步骤。仅在分析器 == 'word' 时适用。

函数应该返回什么？单词列表？是否有示例显示此函数必须返回的数据结构？

编辑：例如，如果我正在编写自己的自定义标记器函数，它应该返回什么。

0 回答 0