当您通过其RSS 频道查看特定Wikipedia 文章的新闻时,如果不过滤信息,这很烦人,因为大多数编辑都是垃圾邮件、故意破坏、次要编辑等。
我的方法是创建过滤器。我决定删除所有不包含贡献者昵称但仅由贡献者 IP 地址标识的编辑,因为大多数此类编辑都是垃圾邮件(尽管有一些好的贡献)。使用正则表达式很容易做到这一点。我还删除了包含粗俗和其他典型垃圾邮件关键字的编辑。
你知道一些更好的方法利用算法或启发式正则表达式、人工智能、文本处理技术等吗?该方法应该能够检测到不良帖子(微小的编辑或破坏行为),并且应该能够逐步了解什么是好的/坏的贡献并更新其数据库。
谢谢你