我希望你能帮助我。我正在尝试抓取一个包含 4500 个链接的网站,其中包含信息。所以结构是这样的:
第 1 层(只是不同的类别)
第 2 层(包含不同的主题)
第 3 层(包含主题信息)
所以我的脚本循环打开每个类别 - 然后逐个主题打开主题并从第 3 层提取所有信息。但是由于有 4500 个主题,我遇到的问题是有时会出现超时错误,之后我必须从头开始尝试(有时在 200 个主题之后,有时在 2200 个主题之后)。我的问题是我怎样才能以正确的方式做到这一点,所以如果它崩溃了,我可以继续下一个它之前崩溃的主题,而不是从头开始。我是 Ruby 和 Crawling 的新手,我将不胜感激每一个建议。
谢谢!