11

我正在尝试使用 BS 和 Selenium 抓取 JavaScript 启用页面。到目前为止,我有以下代码。它仍然无法以某种方式检测到 JavaScript(并返回空值)。在这种情况下,我试图在底部抓取 Facebook 评论。(检查元素将类显示为 postText)
感谢您的帮助!

from selenium import webdriver  
from selenium.common.exceptions import NoSuchElementException  
from selenium.webdriver.common.keys import Keys  
import BeautifulSoup

browser = webdriver.Firefox()  
browser.get('http://techcrunch.com/2012/05/15/facebook-lightbox/')  
html_source = browser.page_source  
browser.quit()

soup = BeautifulSoup.BeautifulSoup(html_source)  
comments = soup("div", {"class":"postText"})  
print comments
4

1 回答 1

9

您的代码中有一些错误已在下面修复。但是,“postText”类必须存在于其他地方,因为它没有在原始源代码中定义。我对您的代码的修订版本已经过测试,并且正在多个网站上运行。

from selenium import webdriver  
from selenium.common.exceptions import NoSuchElementException  
from selenium.webdriver.common.keys import Keys  
from bs4 import BeautifulSoup

browser = webdriver.Firefox()  
browser.get('http://techcrunch.com/2012/05/15/facebook-lightbox/')  
html_source = browser.page_source  
browser.quit()

soup = BeautifulSoup(html_source,'html.parser')  
#class "postText" is not defined in the source code
comments = soup.findAll('div',{'class':'postText'})  
print comments
于 2014-03-22T05:04:18.357 回答