我有一个包含以下类型架构的 Sqlite 数据库:
termcount(doc_num, term , count)
此表包含术语及其在文档中的相应计数。喜欢
(doc1 , term1 ,12)
(doc1, term 22, 2)
.
.
(docn,term1 , 10)
这个矩阵可以被认为是稀疏矩阵,因为每个文档包含非常少的具有非零值的术语。
我将如何使用 numpy 从这个稀疏矩阵创建一个密集矩阵,因为我必须使用余弦相似度计算文档之间的相似度。
这个密集矩阵看起来像一个表格,第一列是 docid,所有术语都将列为第一行。剩余的单元格将包含计数。