我有一个类似的问题。我试图为用户提交的链接目录设计一个安全的链接系统。用户将在博客或新闻站点上发布页面并提交指向索引的链接。人类会验证链接是否合适,然后将页面添加到索引中。
问题是想出一种自动检查的方法,以确保链接随着时间的推移仍然合适。例如,是否有人在几周后修改了页面并插入了种族诽谤?新闻网站是否开始告诉人们“你必须订阅才能阅读这个故事”?
我最终提取了段落 <p> 元素并将缓存的副本与当前逐字比较。用最简单的话来说:
cached[] = { "Lorem", "Ipsum", "..." };
scanned[] = { "Lorem, "foo", ... };
在那之后,一系列的分类器会在处理它的同时忽略常用词“if but can or and”,同时以更重的权重对待其他词(亵渎等)。
这导致了一个评分系统几乎忽略了微小的编辑和修订(错别字、句子结构等),但会迅速揭示是否需要再次检查内容。然后返回一个分数,超过阈值的分数将被放入队列中以供人类重新验证。
这也有助于解释网站的重大外观变化。我不相信它会完全独立运行,但在人类的一点帮助下,它确实可以很好地完成它的工作。诚然,就方法论而言,该系统的效率并不高。