我正在尝试http://www.verizonwireless.com/wcms/consumer/shop/share-everything.html
使用下面提到的代码从该网页上抓取数据:
# -*- coding: cp1252 -*-
import csv
import urllib2
import sys
import urllib
import time
from bs4 import BeautifulSoup
from itertools import islice
url = 'http://www.verizonwireless.com/wcms/consumer/shop/share-everything.html'
user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1;Trident/5.0)'
req = urllib2.Request(url,headers={ 'User-Agent' : user_agent })
response = urllib2.urlopen(req)
page = response.read()
soup = BeautifulSoup(page)
tabcontent = soup.find('div', {"id": "uttsdPlanOptions", "class": "priceCol2"})
content = tabcontent.findAll('tr')
print content
打印内容后,我意识到我没有获得网站上提到的 GB 中的数据值,当我尝试检查“GB”部分的元素时,我发现了这个 html 结构<p class="ptData">Shareable Data</p>
在这部分中没有提到 GB,也没有链接图像这可以解释 GB 的缺失值。