r - ngram 的哈希值：文档指纹识别

Question

我正在尝试在 R 中实现文档指纹识别的筛选算法。

这里参考http://www.ida.liu.se/~TDDC03/oldprojects/2005/final-projects/prj10.pdf

我的问题：

我如何获得 n-gram 的哈希值以及如何选择那些

nGrams <- c("adoru", "dorun", "orunr", "runru", "unrun", "nrunr" ,"runru",
  "unrun","nruna", "runad", "unado", "nador", "adoru", "dorun", "orunr" ,"runru" ,
  "unrun")

score 1 · Accepted Answer

好像

library(digest)
v <- sapply(nGrams,digest,algo="crc32")
uv <- unique(v)
(as.integer(as.hexmode(uv))-1) %% 4 == 0

将是一个好的开始。（CRC32 总是奇数，所以需要减 1。）

r - ngram 的哈希值：文档指纹识别

1 回答 1

Related

Reference