1

我正在寻找一个启发式列表,给定一个 HTML 文档和/或网页上的一组 URL,这将给出一组来自该页面的上一个/下一个链接的 URL。此外,假设您获得了基本 URL。我不需要知道链接是具体是下一个还是上一个 URL,只要它是这两个 URL 之一即可。

我已经有了一个简短的清单:

  • 与 URL 相同的域和路径,但查询参数不同。
    • 基地:abc.com/story
    • 下一个/上一个:abc.com/story?p=2
      • 或者
    • 基地:abc.com/story.html?p=5
    • 下一个/上一个:abc.com/story.html?p=3
  • 除了数字路径元素之外,URL 与基本 URL 相同。
    • 基地:abc.com/story
    • 下一个/上一个:abc.com/story/2
  • 在 DOM/HTML 中相邻的几个链接。
    • 我知道这也可能像页眉/页脚,我必须以某种方式解释这一点......有什么想法吗?
  • 文本为数字或测试为“Next”、“Previous”、“First”、“Last”、“Back”、“Forward”等单词的链接...

我知道我在这方面永远无法做到完美,但我希望获得尽可能多的覆盖范围和尽可能多的启发式方法,以期获得良好的组合或数量和质量。谢谢。

4

0 回答 0