我正在尝试理解/优化索引站点的逻辑。我是 HTML/JS 方面的新手,所以我边走边学。在索引站点时,我会根据每个页面上的链接递归地深入到站点。一个问题是页面有重复的 URL 和文本,如页眉和页脚。对于 URL,我有一个我已经处理过的 URL 列表。我可以做些什么来识别每页上重复的文本吗?我希望我的解释足够清楚。我目前有代码(在 python 中)来获取该站点的有用 URL 列表。现在我正在尝试索引这些页面的内容。是否有首选逻辑来识别或跳过这些页面上的重复文本(如页眉、页脚、其他简介)。我正在使用 BeautifulSoup + requests 模块。