2

我正在使用 import.io 并尝试基于此页面创建爬虫: http ://www.flashscore.com/match/IeHoEHvJ/#match-statistics;0

在选择单行(每页一行)并添加一些列并对其进行训练后,我想单击“我已经得到了我需要的东西!”按钮。为了继续和训练另一个类似的页面。但是无法点击按钮,就好像程序在等我训练更多,尽管没有必要(我已经在其他网站上成功完成了这个程序,但是由于某种原因这个页面不起作用)。

知道为什么这不起作用吗?

当我尝试单击按钮但未成功时,请参阅以下 import.io 屏幕截图:http: //puu.sh/j5Vlm/fcc322549a.png

更新:得到 import.io facebook 群组的回复。由于 robots.txt,构建爬虫可能无法正常工作。但是构建一个提取器似乎是可行的,只需要找到一种简单的方法来收集所有要在提取器中使用的链接。

4

1 回答 1

4

您尝试抓取的网站可能受到 robots.txt 文件的保护,因此 Facebook 小组告诉您,我建议您尝试使用 Extractor。

解决方案有点棘手,但它应该可以工作。

  1. 创建一个提取器以从您希望从中获取数据的页面中获取您需要的数据。我做到了,它奏效了。

  2. 创建一个提取器以获取此页面的链接:(我的在这里:5ef25069-f0cc-4ac7-9184-b2a035277403)

  3. 然后以 CSV 格式下载数据集,使用电子表格处理器打开它,并在链接末尾添加以下文本字符串:#match-statistics;0

  4. 最后复制链接列表并返回 import.io。在第一个 API 上选择功能批量提取并粘贴 URL 列表。

它应该工作;)

于 2015-07-24T15:06:20.590 回答