2

这是我的代码,我有一个句子,我想在将其传递给 TfidfVectorizer 以最终获得句子的 tf-idf 表示之前对其进行标记和阻止:

from sklearn.feature_extraction.text import TfidfVectorizer
import nltk 
from nltk.stem.snowball import SnowballStemmer

stemmer_ita = SnowballStemmer("italian")

def tokenizer_stemmer_ita(text):
    return [stemmer_ita.stem(word) for word in text.split()]

def sentence_tokenizer_stemmer(text):
    return " ".join([stemmer_ita.stem(word) for word in text.split()])

X_train = ['il libro è sul tavolo']

X_train = [sentence_tokenizer_stemmer(text) for text in X_train]

tfidf = TfidfVectorizer(preprocessor=None, tokenizer=None, use_idf=True, stop_words=None, ngram_range=(1,2))
X_train = tfidf.fit_transform(X_train)

# let's see the features
print (tfidf.get_feature_names())

我得到输出:

['il', 'il libr', 'libr', 'libr sul', 'sul', 'sul tavol', 'tavol']

如果我改变参数

tokenizer=None

到:

tokenizer=tokenizer_stemmer_ita

我评论了这一行:

X_train = [sentence_tokenizer_stemmer(text) for text in X_train]

我希望得到相同的结果,但结果不同:

['il', 'il libr', 'libr', 'libr è', 'sul', 'sul tavol', 'tavol', 'è', 'è sul']

为什么?我是否正确实施了外部词干分析器?至少,即使 stop_words=None,停用词(“è”)似乎在第一次运行时就被删除了。

[编辑] 正如 Vivek 所建议的,问题似乎是默认的令牌模式,当 tokenizer = None 时无论如何都会应用它。因此,如果在 tokenizer_stemmer_ita 的开头添加这两行:

token_pattern = re.compile(u'(?u)\\b\\w\\w+\\b')
text = " ".join( token_pattern.findall(text) )

我应该得到正确的行为,实际上我在上面的简单示例中得到了它,但是对于一个不同的示例:

X_train = ['0.05%.\n\nVedete?']

我不知道,这两个输出是不同的:

['05', '05 ved', 'ved']

['05', '05 vedete', 'vedete']

为什么?在这种情况下,问号似乎是问题所在,没有它,输出是相同的。

[edit2] 看来我必须先停止然后应用正则表达式,在这种情况下,两个输出是相同的。

4

1 回答 1

2

那是因为token_patternTfidfVectorizer 中使用了默认的分词器模式:

token_pattern : 字符串

表示什么构成“令牌”的正则表达式,仅在分析器 == 'word' 时使用。默认的正则表达式选择 2 个或更多字母数字字符的标记(标点符号被完全忽略并始终被视为标记分隔符)。

所以这个角色è没有被选中。

import re
token_pattern = re.compile(u'(?u)\\b\\w\\w+\\b')
print token_pattern.findall('il libro è sul tavolo')

# Output
# ['il', 'libro', 'sul', 'tavolo']

token_pattern正如您所遇到的那样,当标记器为 None 时使用此默认值。

于 2018-02-22T12:04:49.417 回答