我已经组装了一个相当简单的爬行引擎,它工作得很好,并且在很大程度上避免了陷入循环陷阱。(即,页面 A 链接到页面 B,页面 B 链接到页面 A)。
它卡在这个循环中的唯一一次是当两个页面使用 cachebuster 查询字符串相互链接时,基本上它是每次刷新时每个链接上的唯一查询字符串。
这导致页面对于爬虫来说总是看起来像新页面,并且爬虫在两个页面之间移动时卡住了。
除了在两个页面之间发生 N 次反弹后才突破,唯一的区别是查询字符串(我认为这不是一个很好的方法),还有其他方法可以检测和突破这些陷阱...... ?