r - 在 R 中查找“近乎重复”的字符串

Question

我正在使用 R 构建情绪分析工具，但我遇到了一些重复问题。数据的主要来源是 Twitter，看起来很多人通过在每条推文的末尾添加一些随机文本来绕过 twitter 自己的垃圾邮件过滤器。例如

Click xxxxx to buy the amazing xxxxx for FREE ugjh

我得到了大量的确切推文，最后带有不同的随机字符串。它们要么来自同一个用户，要么来自不同的用户。

是否有任何类似duplicated或unique返回 2 个字符串的接近程度以及它们是否高于某个百分比的函数？

我知道这样做最终会删除那些说完全相同的人的真实推文，比如

I love xxxx !

但我会在未来处理这个问题。

任何正确方向的提示将不胜感激！

score 6 · Accepted Answer

我agrep上面提到过。这是您所解释的示例。通过改变max.distance我们可以调整被踢的内容：

comp <- "Click xxxxx to buy the amazing xxxxx for FREE ugjh"
w <- "I love xxxx !"
x <- "Click xxxxx to purchase the awesome xxxxx for FREE bmf"

agrep(comp, c(x, w), max.distance =.4, value = TRUE)
agrep(comp, c(x, w), max.distance =.9, value = TRUE)

r - 在 R 中查找“近乎重复”的字符串

1 回答 1

Related

Reference