我正在从 30-40 个网页中的以下 html 结构中抓取数据,例如https://www.o2.co.uk/shop/tariffs/sony/xperia-z-purple/
:
<td class="monthlyCost">£13<span>.50</span></td>
<td class="phoneCost">£479.99</td>
<td><span class="lowLight">24 Months</span></td>
<td>50</td>
<td>Unlimited</td>
<td class="dataAllowance">100MB</td>
<td class="extras">
我正在索引以抓取标签下存在的数据,这些td
标签没有像50 & Unlimited这样的类,它对应于数据集中的 Minutes 和 texts 列。我正在使用的代码是:
results = tariff_link_soup.findAll('td', {"class": None})
minutes = results[1]
texts = results[2]
print minutes,texts
所有这 30-40 个 webplink 都出现在https://www.o2.co.uk/shop/phones/
网页上,我在这个网页上找到这些链接访问它们然后到达这个所需的网页,所有这些最终设备网页都遵循相同的结构。
问题:我希望只获得分钟和文本值,例如 50 & Unlimited、200 & Unlimited 并且出现在所有网页的第 2 和第 3 索引处。当我打印数据时,我仍然得到一些其他值,例如。500MB
,100MB
它们是dataAllowance
class 和 td 标签下的值。我使用类作为None
属性,但仍然无法获取所需的数据。我检查了 html 结构,它在页面之间是一致的。
请帮助我解决这个问题,因为我无法理解这种异常的原因。
更新:我正在使用的整个 Python 代码:
urls = ['https://www.o2.co.uk/shop/phones/',
'https://www.o2.co.uk/shop/phones/?payGo=true']
plans = ['Pay Monthly','Pay & Go']
for url,plan in zip(urls,plans):
if plan == 'Pay Monthly':
device_links = parse().direct_url(url,'span', {"class": "model"})
for device_link in device_links:
device_link.parent['href'] = urlparse.urljoin(url, device_link.parent['href'])
device_link_page = urllib2.urlopen(device_link.parent['href'])
device_link_soup = BeautifulSoup(device_link_page)
dev_names = device_link_soup.find('h1')
for devname in dev_names:
tariff_link = device_link_soup.find('a',text = re.compile('View tariffs'))
tariff_link['href'] = urlparse.urljoin(url, tariff_link['href'])
tariff_link_page = urllib2.urlopen(tariff_link['href'])
tariff_link_soup = BeautifulSoup(tariff_link_page)
dev_price = tariff_link_soup.findAll('td', {"class": "phoneCost"})
monthly_price = tariff_link_soup.findAll('td', {"class": "monthlyCost"})
tariff_length = tariff_link_soup.findAll('span', {"class": "lowLight"})
data_plan = tariff_link_soup.findAll('td', {"class": "dataAllowance"})
results = tariff_link_soup.xpath('//td[not(@class)]')
print results[1].text
print results[2].text