因此,很长一段时间以来,我一直在使用 import.io 桌面应用程序提取大量数据;但一直困扰我的是,当您尝试批量提取多个 URL 时,它总是会跳过大约一半的 URL。
这不是 URL 问题,如果您采用相同的假设 15 个 URL,它将返回例如第一次 8、第二次 7、第三次 9;一些链接将第一次被提取,但第二次将被跳过,依此类推。
我想知道有没有办法让它处理我提供的所有 URL?
因此,很长一段时间以来,我一直在使用 import.io 桌面应用程序提取大量数据;但一直困扰我的是,当您尝试批量提取多个 URL 时,它总是会跳过大约一半的 URL。
这不是 URL 问题,如果您采用相同的假设 15 个 URL,它将返回例如第一次 8、第二次 7、第三次 9;一些链接将第一次被提取,但第二次将被跳过,依此类推。
我想知道有没有办法让它处理我提供的所有 URL?
我在提取数据时遇到过几次这个问题。这通常是由于批量提取从站点服务器请求 URL 的速度。
一种解决方法是使用像提取器这样的爬虫。您可以将创建/收集的 URL 粘贴到“从哪里开始”、“在哪里抓取”和“从哪里获取数据”部分(您需要单击“抓取工具”中的高级设置按钮)。
确保打开 0 depth Crawl。(这会将 Crawler 变成 Extractor;即没有发现其他 URL)
增加页面之间的暂停。
这是我前一段时间构建的一个屏幕截图。 http://i.gyazo.com/92de3b7c7fbca2bc4830c27aefd7cba4.png