我正在尝试从 IMDB 网站抓取特定电影评论的评论。为此,我使用了嵌入在循环中的爬网,因为有 74 页。
附上配置图片。请帮忙。我严重陷入了困境。
Crawl Web 的 URL 是:http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}
我正在尝试从 IMDB 网站抓取特定电影评论的评论。为此,我使用了嵌入在循环中的爬网,因为有 74 页。
附上配置图片。请帮忙。我严重陷入了困境。
Crawl Web 的 URL 是:http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}
当我尝试它时,我得到了403 forbidden
错误,因为 IMDB 服务认为我是一个机器人。使用Loop
withCrawl Web
是不好的做法,因为Loop
操作员没有实现任何等待。
该过程可以简化为仅Crawl Web
操作员。关键参数是:
这是可行的,因为抓取操作员将计算出所有可能匹配规则的 URL,并将存储那些也匹配的 URL。访问将延迟 1000 毫秒(延迟参数)以避免在服务器上触发机器人排除。
希望这能让你开始。