我有以下情况,我想使用Python
(最好使用numpy
and scipy
)来解决:
- 我要转换为稀疏术语文档矩阵的文档集合。
- 提取每个文档的稀疏向量表示(即矩阵中的一行),并在某些文档子集中使用余弦相似度找出前 10 个相似文档(文档标有类别,我想在同一类别中找到相似的文档)。
我如何做到这一点Python
?我知道我可以用来scipy.sparse.coo_matrix
将文档表示为稀疏向量并采用点积来查找余弦相似度,但是如何将整个语料库转换为一个大但稀疏的术语文档矩阵(这样我也可以将它的行提取为scipy.sparse.coo_matrix
行向量)?
谢谢。