python-2.7 - 如何使用 Beautifulsoup 获取非常大的网站内容的大量 href 链接

Question

我正在解析一个包含 1000 多个 href 链接的大型 html 网站。我正在使用 Beautifulsoup 来获取所有链接，但是当我再次运行程序时，beautifulsoup 无法处理它。（查找特定的所有'td'标签。我将如何克服这个问题？虽然我可以使用urllib加载html页面，但无法打印所有链接。当我将它与find一个'td'标签一起使用时，它通过了。

Tag = self.__Page.find('table', {'class':'RSLTS'}).findAll('td')    
    print Tag           

    for a in Tag.find('a', href= True):
        print "found", a['href']

现在作为

Tag = self.__Page.find('table', {'class':'RSLTS'}).find('td')
打印标签

    for a in Tag.find('a', href= True):
        print "found", a['href']

score 0 · Accepted Answer

您需要遍历它们：

tds = self.__Page.find('table', class_='RSLTS').find_all('td')

for td in tds:
    a = td.find('a', href=True)

    if a:
        print "found", a['href']

虽然如果你有很多东西我只会使用 lxml ：

root.xpath('table[contains(@class, "RSLTS")]/td/a/@href')

python-2.7 - 如何使用 Beautifulsoup 获取非常大的网站内容的大量 href 链接

1 回答 1

Related

Reference