r - 使用 quanteda 在 R 中的大型语料库上计算余弦相似度

Question

我正在尝试使用包含大约 85,000 条推文的非常大的语料库，我试图将其与电视广告中的对话进行比较。但是，由于我的语料库的大小，如果没有收到“错误：无法分配大小为 n 的向量”消息（在我的情况下为 26 GB），我将无法处理余弦相似度度量。

我已经在具有大量内存的服务器上运行 R 64 位。我还尝试在内存最多的服务器上使用 AWS（244 GB），但无济于事（同样的错误）。

有没有办法使用像 fread 这样的包来解决这个内存限制，或者我只需要发明一种方法来分解我的数据？非常感谢您的帮助，我已附加以下代码：

x <- NULL
y <- NULL
num <- NULL
z <- NULL
ad <- NULL
for (i in 1:nrow(ad.corp$documents)){
  num <- i
  ad <- paste("ad.num",num,sep="_")
  x <- subset(ad.corp, ad.corp$documents$num== yoad)
  z <- x + corp.all
  z$documents$texts <- as.character(z$documents$texts)
  PolAdsDfm <- dfm(z, ignoredFeatures = stopwords("english"), groups = "num",stem=TRUE, verbose=TRUE, removeTwitter=TRUE)
  PolAdsDfm <- tfidf(PolAdsDfm)
  y <- similarity(PolAdsDfm, ad, margin="documents",n=20, method = "cosine", normalize = T)
  y <- sort(y, decreasing=T)
  if (y[1] > .7){assign(paste(ad,x$documents$texts,sep="--"), y)}
  else {print(paste(ad,"didn't make the cut", sep="****"))}  
}

score 3 · Accepted Answer

该错误很可能是由以前版本的 quanteda（0.9.1-8 之前，截至 2016 年 1 月 1 日在 GitHub 上）将 dfm 对象强制转换为密集矩阵以调用 proxy::simil() 引起的。较新的版本现在适用于稀疏 dfm 对象，而无需强制method = "correlation"和method = "cosine"。（即将推出更多稀疏方法。）

我无法真正理解您在代码中所做的事情，但看起来您在聚合为组的文档之间获得了成对的相似性。我建议以下工作流程：

使用组选项为要比较的所有文本组创建 dfm。
tfidf()像你所做的那样加权这个dfm 。
使用y <- textstat_simil(PolAdsDfm, margin = "documents", method = "cosine")，然后使用将其强制为完整的对称矩阵as.matrix(y)。然后，您的所有成对文档都在该矩阵中，您可以直接从该对象中选择大于阈值 0.7 的条件。

请注意，无需使用标准化词频method = "cosine"。在较新版本的quanteda中，无论如何都删除了该normalize参数，因为我认为在计算任何相似性之前对 dfm 加权是一种更好的工作流程实践，而不是在textstat_simil().

最后一点：我强烈建议不要corpus使用您在此处使用的方法访问对象的内部，因为这些内部可能会更改并破坏您的代码。例如，使用texts(z)代替，和代替。z$documents$textsdocvars(ad.corp, "num")ad.corp$documents$num

r - 使用 quanteda 在 R 中的大型语料库上计算余弦相似度

1 回答 1

Related

Reference