我知道术语文档矩阵是一个数学矩阵,它描述了文档集合中出现的术语的频率。在文档-词条矩阵中,行对应于集合中的文档,列对应于词条。
我正在使用sklearn 的 CountVectorizer从字符串(文本文件)中提取特征以简化我的任务。以下代码根据sklearn_documentation返回一个术语文档矩阵
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
vectorizer = CountVectorizer(min_df=1)
print(vectorizer)
content = ["how to format my hard disk", "hard disk format problems"]
X = vectorizer.fit_transform(content) #X is Term-document matrix
print(X)
输出如下我没有得到这个矩阵是如何计算的。请讨论代码中显示的示例。我从维基百科上又读了一个例子,但无法理解。