我有一个非常大的 csv 文件(大约 9100 万行,所以 for 循环在 R 中花费的时间太长)关键字(大约 50,000 个唯一关键字)之间的相似性,当我读入 data.frame 时看起来像:
> df
kwd1 kwd2 similarity
a b 1
b a 1
c a 2
a c 2
这是一个稀疏列表,我可以使用 sparseMatrix() 将其转换为稀疏矩阵:
> myMatrix
a b c
a . 1 2
b 1 . .
c 2 . .
但是,现在我想将其转换为 dist 对象。我尝试了 as.dist(myMatrix),但得到的错误是 as.dist() 的“问题太大”。我还尝试使用 myMatrix = myMatrix * lower.tri(myMatrix) 将稀疏矩阵转换为下三角稀疏矩阵,然后转换为 dist 对象(认为这可能会更好),但随后我遇到了同样的错误,但对于较低的.tri 函数。
谢谢你的帮助!