3

我使用 import.io 创建了一个爬虫,我遇到的第一个问题是 import.io 在单击“检测最佳设置”后无法识别网页上的数据。它询问“您要提取的数据是否仍在浏览器中?” 由于数据未突出显示,因此我单击“否”。即使这样,数据仍然没有突出显示。提取器也会发生同样的事情。我继续处理这个问题,当它询问“您要提取的数据是否仍在浏览器中?”时单击是。即使没有突出显示数据。我继续构建爬虫,它工作正常。我在页面深度为 0 的起始 URL 中放置了大约 15K 的 URL。

发生的情况是,在 15K 页面中,大约 10% 的页面没有被抓取。我检查了日志文件,它显示IOException: Premature EOF了未抓取的行。

如果我在浏览器中手动转到该页面,则该页面加载正常,并且与我训练爬虫时使用的格式相同。我什至尝试训练显示此错误的页面,但这无济于事。

我怎样才能绕过这个错误?

4

1 回答 1

1

当我回复您的支持票时,我认为将这些信息也放在这里会很好。此错误很可能与网站检测到您正在使用爬虫并阻止 URL 有关。我建议重新运行爬虫,增加“页面之间的暂停”,因为您正在通过这么多页面,以便网站不会阻止您。

于 2015-08-19T09:33:52.303 回答