1

我正在尝试理解/优化索引站点的逻辑。我是 HTML/JS 方面的新手,所以我边走边学。在索引站点时,我会根据每个页面上的链接递归地深入到站点。一个问题是页面有重复的 URL 和文本,如页眉和页脚。对于 URL,我有一个我已经处理过的 URL 列表。我可以做些什么来识别每页上重复的文本吗?我希望我的解释足够清楚。我目前有代码(在 python 中)来获取该站点的有用 URL 列表。现在我正在尝试索引这些页面的内容。是否有首选逻辑来识别或跳过这些页面上的重复文本(如页眉、页脚、其他简介)。我正在使用 BeautifulSoup + requests 模块。

4

1 回答 1

1

我不太确定这是否是您所希望的,但可读性是一种流行的服务,它只解析页面中的“有用”内容。这是集成到 Safari for ios 中的服务。

它智能地获取页面的有价值的内容,同时忽略诸如页脚/页眉/广告/等之类的内容

有 python/ruby/php 和可能其他语言的开源端口。

https://github.com/buriy/python-readability

于 2013-03-21T16:16:00.173 回答