0

我正在从 30-40 个网页中的以下 html 结构中抓取数据,例如https://www.o2.co.uk/shop/tariffs/sony/xperia-z-purple/

    <td class="monthlyCost">£13<span>.50</span></td>
              <td class="phoneCost">£479.99</td>
              <td><span class="lowLight">24 Months</span></td>
    <td>50</td>
    <td>Unlimited</td>
    <td class="dataAllowance">100MB</td>
    <td class="extras">

我正在索引以抓取标签下存在的数据,这些td标签没有像50 & Unlimited这样的类,它对应于数据集中的 Minutes 和 texts 列。我正在使用的代码是:

        results       = tariff_link_soup.findAll('td', {"class": None})
        minutes = results[1]
        texts = results[2]
        print minutes,texts

所有这 30-40 个 webplink 都出现在https://www.o2.co.uk/shop/phones/网页上,我在这个网页上找到这些链接访问它们然后到达这个所需的网页,所有这些最终设备网页都遵循相同的结构。

问题:我希望只获得分钟和文本值,例如 50 & Unlimited、200 & Unlimited 并且出现在所有网页的第 2 和第 3 索引处。当我打印数据时,我仍然得到一些其他值,例如。500MB100MB它们是dataAllowanceclass 和 td 标签下的值。我使用类作为None属性,但仍然无法获取所需的数据。我检查了 html 结构,它在页面之间是一致的。

请帮助我解决这个问题,因为我无法理解这种异常的原因。

更新:我正在使用的整个 Python 代码:

urls  =  ['https://www.o2.co.uk/shop/phones/',
          'https://www.o2.co.uk/shop/phones/?payGo=true']

plans =  ['Pay Monthly','Pay & Go']
for url,plan in zip(urls,plans):

    if plan == 'Pay Monthly':
        device_links = parse().direct_url(url,'span', {"class": "model"})

        for device_link in device_links:
            device_link.parent['href'] = urlparse.urljoin(url, device_link.parent['href'])            
            device_link_page           = urllib2.urlopen(device_link.parent['href'])
            device_link_soup           = BeautifulSoup(device_link_page)

        dev_names = device_link_soup.find('h1')
        for devname in dev_names:

            tariff_link = device_link_soup.find('a',text = re.compile('View tariffs'))

            tariff_link['href'] = urlparse.urljoin(url, tariff_link['href'])

            tariff_link_page    = urllib2.urlopen(tariff_link['href'])
            tariff_link_soup    = BeautifulSoup(tariff_link_page)
            dev_price     = tariff_link_soup.findAll('td', {"class": "phoneCost"})
            monthly_price = tariff_link_soup.findAll('td', {"class": "monthlyCost"})
            tariff_length = tariff_link_soup.findAll('span', {"class": "lowLight"})
            data_plan     = tariff_link_soup.findAll('td', {"class": "dataAllowance"})
            results       = tariff_link_soup.xpath('//td[not(@class)]')
            print results[1].text
            print results[2].text
4

1 回答 1

0

我终于使用以下代码来解决我的问题:

    for row in tariff_link_soup('table', {'id' : 'tariffTable'})[0].tbody('tr'):                                                                                                                                                               
        tds = row('td')                                                                                                                                                   
        #print tds[0].text,tds[1].text,tds[2].text,tds[3].text,tds[4].text,tds[5].text
        monthly_prices = unicode(tds[0].text).encode('utf8').replace("£","").replace("FREE","0").replace("Free","0").strip()
        dev_prices     = unicode(tds[1].text).encode('utf8').replace("£","").replace("FREE","0").replace("Free","0").strip()
        tariff_lengths = unicode(tds[2].text).encode('utf8').strip()
        minutes        = unicode(tds[3].text).encode('utf8').strip()
        texts          = unicode(tds[4].text).encode('utf8').strip()
        data           = unicode(tds[5].text).encode('utf8').strip()
        device_names   = unicode(dev_names).encode('utf8').strip()

我在这里使用数据所在的表格结构逐行访问所需的数据。我正在获取连续存在的所有元素,并将名称分配给我的数据中所需的元素。

于 2013-02-08T13:00:41.187 回答