python - 使用 BeautifulSoup 查找字段

Question

我正在尝试在 BeautifulSoup 中抓取网页。我设法像这样拉出表格中的单元格：

 for row in soup.findAll("tr"):
     print "=========================================="
     cells = row.findAll("td")
     if len(cells) > 0:
         print cells[1].contents[3]

我想要的单元格如下所示：

<div class="detName"> <a href="/path/filename" class="detLink" title="Details for filename">Filename</a>
</div>

我想拉出 href="..." 部分来获取 "/path/filename" 但我不知道如何做到这一点。

score 1 · Accepted Answer

该单元格中只有一个东西，一个div（或者可能是一个div和一些尾部文本），所以contents[3]肯定不会工作。

你可能想要的是：

if len(cells) > 1:
    a = cells[1].find('a')
    href = a['href']

python - 使用 BeautifulSoup 查找字段

1 回答 1

Related

Reference