我试图在非常大的距离上执行 fastclust,但遇到了问题。
我有一个非常大的 csv 文件(大约 9100 万行,所以 for 循环在 R 中花费的时间太长)关键字(大约 50,000 个唯一关键字)之间的相似性,当我读入 data.frame 时看起来像:
> df
kwd1 kwd2 similarity
a b 1
b a 1
c a 2
a c 2
这是一个稀疏列表,我可以使用 sparseMatrix() 将其转换为稀疏矩阵:
> myMatrix
a b c
a . . .
b 1 . .
c 2 . .
但是,当我尝试使用 as.dist() 将其转换为 dist 对象时,我收到来自 R 的“问题太大”的错误。我已阅读此处的其他 dist 问题,但其他人建议的代码不适用于我上面的示例数据集。
谢谢你的帮助!