我已经构建了一个网络爬虫,它获取网站或 RSS 提要,解析提要和/或网站的所述内容,提取所有适当的信息,然后将其保存到数据库中。这是一个个人实验,看看我是否可以构建一个没有真正目的的智能匿名网络爬虫,只是为了看看我能走多远,然后我将开源代码供其他人学习。
问题是我目前正在抓取 3 个新闻网站。当涉及突发新闻时,所有 3 个网站(尤其是如果它是一个大故事)很有可能都会写自己对新闻的解释,但最终是同一个新闻。
我一直在尝试提出一个解决方案,当一篇被拉入的文章已经被谈论并从另一个新闻网站导入并且可能链接与故事相关时(其他网站也写过关于这:链接1,链接2)。
是否有一种久经考验的方法来检测一个或多个内容是否有效相同?我已经编写了一些伪代码,但不幸的是,我不是一个非常聪明的开发人员来接受它并使它成为可行的东西。
这是我的想法:
- 解析到网站的链接
- 通用词被删除,关键字留在(公司名称,国家等)
- 然后计算剩余的单词并计算分数
这就是我的想法遇到障碍的地方。如何有效地创建页面快照,然后将其与我已经导入的数据库中预先存在的内容进行比较?这就是我认为需要做的事情。
也许我想多了,我只需要检查文章是否有相似的标题?