python - 解析网页以进行索引

Question

我正在尝试理解/优化索引站点的逻辑。我是 HTML/JS 方面的新手，所以我边走边学。在索引站点时，我会根据每个页面上的链接递归地深入到站点。一个问题是页面有重复的 URL 和文本，如页眉和页脚。对于 URL，我有一个我已经处理过的 URL 列表。我可以做些什么来识别每页上重复的文本吗？我希望我的解释足够清楚。我目前有代码（在 python 中）来获取该站点的有用 URL 列表。现在我正在尝试索引这些页面的内容。是否有首选逻辑来识别或跳过这些页面上的重复文本（如页眉、页脚、其他简介）。我正在使用 BeautifulSoup + requests 模块。

score 1 · Accepted Answer

我不太确定这是否是您所希望的，但可读性是一种流行的服务，它只解析页面中的“有用”内容。这是集成到 Safari for ios 中的服务。

它智能地获取页面的有价值的内容，同时忽略诸如页脚/页眉/广告/等之类的内容

有 python/ruby/php 和可能其他语言的开源端口。

https://github.com/buriy/python-readability

python - 解析网页以进行索引

1 回答 1

Related

Reference