6

我正在尝试从中文网站上抓取一些 javascript 生成的内容。我正在使用 Selenium(和 Python),因为我无法直接抓取 javascript 内容。

# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.selenium import selenium 

import time
import urllib2
import httplib
import urllib
import re
import base64

browser = webdriver.Firefox() # Get local session of firefox
browser.get("http://www...") # Load page (redacted here, but any works)
browser.get_body_text() #Attempt to scrape body text

我收到以下错误:

'WebDriver' object has no attribute 'get_body_text'

事实上,我似乎无法调用 selenium.selenium 类中的任何命令。毫无疑问,我忽略了一些非常明显的东西。提前致谢。

4

1 回答 1

5
  1. 你只需要from selenium import webdriver.
  2. 执行html= browser.find_element_by_xpath(".//html")获取页面上的html元素,最大的元素。(您可以通过多种方式执行此操作,并选择任意数量的元素。)
  3. 执行html.text返回页面文本。

.textelement对象的方法。第 2 步是对elementname的分配html

于 2012-10-18T17:53:41.043 回答