0

我正在尝试在 BeautifulSoup 中抓取网页。我设法像这样拉出表格中的单元格:

 for row in soup.findAll("tr"):
     print "=========================================="
     cells = row.findAll("td")
     if len(cells) > 0:
         print cells[1].contents[3]

我想要的单元格如下所示:

<div class="detName"> <a href="/path/filename" class="detLink" title="Details for filename">Filename</a>
</div>

我想拉出 href="..." 部分来获取 "/path/filename" 但我不知道如何做到这一点。

4

1 回答 1

1

该单元格中只有一个东西,一个div(或者可能是一个div和一些尾部文本),所以contents[3]肯定不会工作。

你可能想要的是:

if len(cells) > 1:
    a = cells[1].find('a')
    href = a['href']
于 2013-11-05T20:25:41.007 回答