python-2.7 - 使用 phantomjs 获取具有scrapy 和 selenium 可能竞争条件的动态内容

Question

首先，这是一个后续问题：Change number of running spiders scrapyd

我使用 phantomjs 和 selenium 为我的 scrapy 项目创建下载器中间件。当我在本地一次运行我的蜘蛛时，它运行良好并且并没有真正减慢速度。

但就在最近，我在 AWS 上安装了一个 scrapyd 服务器。我注意到一个可能的竞争条件，当多个蜘蛛同时运行时，它似乎会导致错误和性能问题。我觉得这个问题源于两个不同的问题。

1) 蜘蛛试图同时使用 phantomjs 可执行文件。

2) 蜘蛛试图同时登录到 phantomjs 的 ghostdriver 日志文件。

在这里猜测，性能问题可能是蜘蛛试图等到资源可用（这可能是因为我也有一个 sqlite 数据库的竞争条件）。

这是我得到的错误：

exceptions.IOError: [Errno 13] Permission denied: 'ghostdriver.log' （日志文件竞争条件？）

selenium.common.exceptions.WebDriverException：消息：“无法连接到 GhostDriver”（可执行竞争条件？）

我的问题是：

我对问题所在的分析是否正确？

除了限制一次可以运行的蜘蛛数量之外，还有其他已知的解决方案吗？

还有其他我应该处理javascript的方法吗？（如果您认为我应该创建一个全新的问题来讨论使用 scrapy 处理 javascript 的最佳方法，请告诉我，我会的）

这是我的下载器中间件：

class JsDownload(object):

    @check_spider_middleware
    def process_request(self, request, spider):
        if _platform == "linux" or _platform == "linux2":
            driver = webdriver.PhantomJS(service_log_path='/var/log/scrapyd/ghost.log')
        else:
            driver = webdriver.PhantomJS(executable_path=settings.PHANTOM_JS_PATH)
        driver.get(request.url)
        return HtmlResponse(request.url, encoding='utf-8', body=driver.page_source.encode('utf-8'))

注意： _platform 代码是一个临时工作，直到我将此源代码部署到静态环境中。

我在 SO 上找到了针对 javascript 问题的解决方案，但它们是基于蜘蛛的。这让我很困扰，因为这意味着每个请求都必须在下载程序处理程序中发出一次，然后在蜘蛛程序中再次发出。这就是为什么我决定将我的实现为下载器中间件。

score 2 · Accepted Answer

2

尝试使用 webdriver 与 phantomjs https://github.com/brandicted/scrapy-webdriver交互

于 2014-10-20T07:07:11.850 回答

python-2.7 - 使用 phantomjs 获取具有scrapy 和 selenium 可能竞争条件的动态内容

1 回答 1

Related

Reference