我是机器学习的新手。经过大量研究,我决定尽可能多地使用 Sci-Kit Learn。但我仍然在第一方。
我想做的是对我的文档进行欧几里德距离测量。我正在使用 NLTK 来准备文本和 Sci-Kit 来提取文档特征。我现在想做的是测量文档的欧几里得距离。
这是Sci-Kit 的欧几里得距离测量文档。我(新手)不清楚我应该传递哪些功能(即 euclidean_distances())。谁能告诉我通过 Sci-Kit 的欧几里得距离函数需要什么?
感谢您提供任何帮助。
我是机器学习的新手。经过大量研究,我决定尽可能多地使用 Sci-Kit Learn。但我仍然在第一方。
我想做的是对我的文档进行欧几里德距离测量。我正在使用 NLTK 来准备文本和 Sci-Kit 来提取文档特征。我现在想做的是测量文档的欧几里得距离。
这是Sci-Kit 的欧几里得距离测量文档。我(新手)不清楚我应该传递哪些功能(即 euclidean_distances())。谁能告诉我通过 Sci-Kit 的欧几里得距离函数需要什么?
感谢您提供任何帮助。
只需将矢量化器fit_transform
方法的输出提供给它即可。
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import euclidean_distances
v = TfidfVectorizer()
X = v.fit_transform(your_documents)
D = euclidean_distances(X)
现在是文档向量和D[i, j]
之间的欧几里得距离。X[i]
X[j]