4

我正在使用 Scrapy 编写网络抓取工具。我需要访问的一些站点需要我与它们交互,所以我使用 Splash 发出请求,这允许我这样做。这目前工作得很好。

为了防止我的爬虫被阻止,我希望请求通过一组代理服务器,所以我为此使用了 Scrapoxy。

我现在遇到的问题是,据我所知,请求以以下方式流动:-

Scrapy -> Scrapoxy -> Splash -> 目标网站

代替 :-

Scrapy -> Splash -> Scrapoxy -> 目标网站

有可能解决这个问题吗?
如果没有,是否可以使用任何其他无头浏览器或代理 IP 旋转器来解决此问题?

4

1 回答 1

0

您可以使用此脚本:

function main(splash)
    local host = "localhost"
    local port = 8888

    splash:on_request(function (request)
       request:set_proxy{host, port}
    end)

    splash:go(splash.args.url)
    return splash:png()
end
于 2017-02-13T14:15:33.640 回答