我使用 import.io 创建了一个爬虫,我遇到的第一个问题是 import.io 在单击“检测最佳设置”后无法识别网页上的数据。它询问“您要提取的数据是否仍在浏览器中?” 由于数据未突出显示,因此我单击“否”。即使这样,数据仍然没有突出显示。提取器也会发生同样的事情。我继续处理这个问题,当它询问“您要提取的数据是否仍在浏览器中?”时单击是。即使没有突出显示数据。我继续构建爬虫,它工作正常。我在页面深度为 0 的起始 URL 中放置了大约 15K 的 URL。
发生的情况是,在 15K 页面中,大约 10% 的页面没有被抓取。我检查了日志文件,它显示IOException: Premature EOF
了未抓取的行。
如果我在浏览器中手动转到该页面,则该页面加载正常,并且与我训练爬虫时使用的格式相同。我什至尝试训练显示此错误的页面,但这无济于事。
我怎样才能绕过这个错误?