0

在我的 Django 应用程序中,我使用 selenium 来获取页面并使用 BeautifulSoup 来解析 html。我正在使用 Xvfb 在 Debian 中工作。这是代码:

from selenium import webdriver
import os

os.environ["DISPLAY"]=":99"
driver = webdriver.Firefox()
driver.get("www.google.it")
text = driver.page_source

soup = BeautifulSoup(text)  

(... some code to parse the page with ...)

我有一个非常奇怪的错误:如果我在“汤”中搜索,什么也找不到。这不会发生在我的本地 Windows XP 机器上。在“文本”中有 html。

更新:我认为这可能是编解码器/解码错误,但我不知道在这种情况下如何处理它。

4

1 回答 1

0

您实际上并没有获取页面,因此没有什么可解析的。WebDriver 需要一个有效的 url(以“http://”或“https://”开头)

您应该更改以下行:

driver.get("www.google.it")

至:

driver.get("http://www.google.it")
于 2017-05-10T22:43:59.960 回答