2

我是机器学习的新手。经过大量研究,我决定尽可能多地使用 Sci-Kit Learn。但我仍然在第一方。

我想做的是对我的文档进行欧几里德距离测量。我正在使用 NLTK 来准备文本和 Sci-Kit 来提取文档特征。我现在想做的是测量文档的欧几里得距离。

这是Sci-Kit 的欧几里得距离测量文档。我(新手)不清楚我应该传递哪些功能(即 euclidean_distances())。谁能告诉我通过 Sci-Kit 的欧几里得距离函数需要什么?

感谢您提供任何帮助。

4

1 回答 1

2

只需将矢量化器fit_transform方法的输出提供给它即可。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import euclidean_distances

v = TfidfVectorizer()
X = v.fit_transform(your_documents)
D = euclidean_distances(X)

现在是文档向量和D[i, j]之间的欧几里得距离。X[i]X[j]

于 2013-05-23T14:49:01.193 回答