我想用scrapy和python做一些网络爬取。我从互联网上找到了一些使用 selenium 和 scrapy 的代码示例。
我不太了解,selenium
但只知道它可以自动执行一些网络任务。浏览器实际上会打开并做一些事情。但我不希望实际的浏览器打开,但我希望一切都从命令行发生。
我可以在 selenium 和 scrapy 中做到这一点吗
更新:PhantomJS 已弃用,现在可以直接使用无头浏览器,比如 Firefox 和 Chrome!
改用 PhantomJS。
你可以browser = webdriver.PhantomJS()
在 selenium v2.32.0 中做。
至少在 linux 上,您可以将 selenium 与PyVirtualDisplay一起使用。
from pyvirtualdisplay import Display
from selenium import webdriver
display = Display(visible=0, size=(1024, 768))
display.start()
browser = webdriver.Chrome()