我需要为几个句子计算 tfidf 矩阵。句子包括数字和单词。我正在使用下面的代码这样做
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
data1=['1/8 wire','4 tube','1-1/4 brush']
dataset=pd.DataFrame(data1, columns=['des'])
vectorizer1 = TfidfVectorizer(lowercase=False)
tf_idf_matrix = pd.DataFrame(vectorizer1.fit_transform(dataset['des']).toarray(),columns=vectorizer1.get_feature_names())
Tfidf 函数只考虑单词作为它的词汇,即
Out[3]: ['brush', 'tube', 'wire']
但我需要数字成为令牌的一部分
预期的
Out[3]: ['brush', 'tube', 'wire','1/8','4','1-1/4']
阅读TfidfVectorizer文档后,我知道必须更改token_pattern和tokenizer参数。但我不知道如何改变它来考虑数字和标点符号。
谁能告诉我如何更改参数。