0

我正在解析一个包含 1000 多个 href 链接的大型 html 网站。我正在使用 Beautifulsoup 来获取所有链接,但是当我再次运行程序时,beautifulsoup 无法处理它。(查找特定的所有'td'标签。我将如何克服这个问题?虽然我可以使用urllib加载html页面,但无法打印所有链接。当我将它与find一个'td'标签一起使用时,它通过了。

Tag = self.__Page.find('table', {'class':'RSLTS'}).findAll('td')    
    print Tag           

    for a in Tag.find('a', href= True):
        print "found", a['href']

现在作为

Tag = self.__Page.find('table', {'class':'RSLTS'}).find('td')
打印标签

    for a in Tag.find('a', href= True):
        print "found", a['href']
4

1 回答 1

0

您需要遍历它们:

tds = self.__Page.find('table', class_='RSLTS').find_all('td')

for td in tds:
    a = td.find('a', href=True)

    if a:
        print "found", a['href']

虽然如果你有很多东西我只会使用 lxml :

root.xpath('table[contains(@class, "RSLTS")]/td/a/@href')
于 2013-02-28T01:47:30.747 回答