import.io - 运行 import.io 时出现 IOException: Premature EOF

Question

我使用 import.io 创建了一个爬虫，我遇到的第一个问题是 import.io 在单击“检测最佳设置”后无法识别网页上的数据。它询问“您要提取的数据是否仍在浏览器中？” 由于数据未突出显示，因此我单击“否”。即使这样，数据仍然没有突出显示。提取器也会发生同样的事情。我继续处理这个问题，当它询问“您要提取的数据是否仍在浏览器中？”时单击是。即使没有突出显示数据。我继续构建爬虫，它工作正常。我在页面深度为 0 的起始 URL 中放置了大约 15K 的 URL。

发生的情况是，在 15K 页面中，大约 10% 的页面没有被抓取。我检查了日志文件，它显示IOException: Premature EOF了未抓取的行。

如果我在浏览器中手动转到该页面，则该页面加载正常，并且与我训练爬虫时使用的格式相同。我什至尝试训练显示此错误的页面，但这无济于事。

我怎样才能绕过这个错误？

score 1 · Accepted Answer

当我回复您的支持票时，我认为将这些信息也放在这里会很好。此错误很可能与网站检测到您正在使用爬虫并阻止 URL 有关。我建议重新运行爬虫，增加“页面之间的暂停”，因为您正在通过这么多页面，以便网站不会阻止您。

import.io - 运行 import.io 时出现 IOException: Premature EOF

1 回答 1

Related

Reference