5

我正在尝试将peroumal1 的“docker-chrome-selenium”容器链接到另一个具有使用 Selenium 的抓取代码的容器。

他将他的容器暴露给端口 4444(Selenium 的默认端口),但我无法从我的刮板容器访问它。这是我的docker-compose文件:

chromedriver:
  image: eperoumalnaik/docker-chrome-selenium:latest

scraper:
  build: .
  command: python manage.py scrapy crawl general_course_content
  volumes:
    - .:/code
  ports:
    - "8000:8000"
  links:
    - chromedriver

这是我的刮刀 Dockerfile:

FROM python:2.7

RUN mkdir /code
WORKDIR /code
ADD requirements.txt /code/

RUN pip install --upgrade pip
RUN pip install -r requirements.txt
ADD . /code/

但是,当我尝试从我的代码中使用 Selenium(见下文)时,我收到以下错误消息:selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be available in the path. Please look at http://docs.seleniumhq.org/download/#thirdPartyDrivers and read up at http://code.google.com/p/selenium/wiki/ChromeDriver. 在 Mac OS X 上,当我不使用 Docker 时,我通过下载chromedriver二进制文件并将其添加到路径来解决此问题,但我不知道在这里做什么。

driver = webdriver.Chrome()
driver.maximize_window()
driver.get('http://google.com')
driver.close()

编辑:我也在尝试使用Selenium 的官方图像来执行此操作,不幸的是,它也不起作用(出现相同的错误消息,要求输入 chromedriver 二进制文件)。

Python代码有什么需要做的吗?

谢谢!

更新:正如@peroumal1 所说,问题是我没有使用 Selenium 连接到远程驱动程序。然而,在我这样做之后,我遇到了urllib2.URLError: <urlopen error [Errno 111] Connection refused>连接boot2docker问题boot2docker ip(并更改了docker-compose文件。这就是我最终的结果:

chromedriver:
  image: selenium/standalone-chrome
  ports:
    - "4444:4444"

scraper:
  build: .
  command: python manage.py scrapy crawl general_course_content
  volumes:
    - .:/code
  ports:
    - 8000:8000
  links:
    - chromedriver

Python代码(boot2docker我电脑上的IP地址是192.168.59.103):

driver = webdriver.Remote(
           command_executor='http://192.168.59.103:4444/wd/hub',
           desired_capabilities=DesiredCapabilities.CHROME)
driver.maximize_window()
driver.get('http://google.com')
driver.close()
4

1 回答 1

8

我认为这里的问题可能不是 Docker,而是代码。Selenium 图像通过远程 Webdriver 提供到 Selenium 服务器的接口,并且提供的代码尝试使用 chromedriver 直接实例化 Chrome 浏览器,这可以通过 Selenium Python 绑定实现,前提是 chromedriver 可以从环境中访问。

也许使用文档中的示例会更好:

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

driver = webdriver.Remote(
command_executor='http://127.0.0.1:4444/wd/hub',
desired_capabilities=DesiredCapabilities.CHROME)
于 2015-04-22T07:23:46.380 回答