import.io - 使用 import.io 进行批量提取时防止 URL 跳过

Question

因此，很长一段时间以来，我一直在使用 import.io 桌面应用程序提取大量数据；但一直困扰我的是，当您尝试批量提取多个 URL 时，它总是会跳过大约一半的 URL。

这不是 URL 问题，如果您采用相同的假设 15 个 URL，它将返回例如第一次 8、第二次 7、第三次 9；一些链接将第一次被提取，但第二次将被跳过，依此类推。

我想知道有没有办法让它处理我提供的所有 URL？

score 1 · Accepted Answer

我在提取数据时遇到过几次这个问题。这通常是由于批量提取从站点服务器请求 URL 的速度。

一种解决方法是使用像提取器这样的爬虫。您可以将创建/收集的 URL 粘贴到“从哪里开始”、“在哪里抓取”和“从哪里获取数据”部分（您需要单击“抓取工具”中的高级设置按钮）。

确保打开 0 depth Crawl。（这会将 Crawler 变成 Extractor；即没有发现其他 URL）

增加页面之间的暂停。

1 回答 1