我正在尝试在 BeautifulSoup 中抓取网页。我设法像这样拉出表格中的单元格:
for row in soup.findAll("tr"):
print "=========================================="
cells = row.findAll("td")
if len(cells) > 0:
print cells[1].contents[3]
我想要的单元格如下所示:
<div class="detName"> <a href="/path/filename" class="detLink" title="Details for filename">Filename</a>
</div>
我想拉出 href="..." 部分来获取 "/path/filename" 但我不知道如何做到这一点。