我正在使用 R 构建情绪分析工具,但我遇到了一些重复问题。数据的主要来源是 Twitter,看起来很多人通过在每条推文的末尾添加一些随机文本来绕过 twitter 自己的垃圾邮件过滤器。例如
Click xxxxx to buy the amazing xxxxx for FREE ugjh
我得到了大量的确切推文,最后带有不同的随机字符串。它们要么来自同一个用户,要么来自不同的用户。
是否有任何类似duplicated
或unique
返回 2 个字符串的接近程度以及它们是否高于某个百分比的函数?
我知道这样做最终会删除那些说完全相同的人的真实推文,比如
I love xxxx !
但我会在未来处理这个问题。
任何正确方向的提示将不胜感激!