python - 如何使用 BeautifulSoup 捡起想要的文字？

Question

（我是 Python 的新手。阅读 BeautifulSoup DOC 但仍然不知道如何使用它）。

我正在尝试使用 BeautifulSoup 从网页中提取一些信息。

网页的 HTML 源代码包含：

<TD class=genmed align=left><A href="http://m.harveynorman.com.au/ipod-shuffle-2gb.html">1015362</A></TD>

<TD class=genmed align=left><A href="http://m.harveynorman.com.au/ipod-touch-16gb-black-and-silver.html">1056332</A></TD>

<TD class=genmed align=left><A href="http://m.harveynorman.com.au/ipod-nano-16gb.html">1016552</A></TD>

我想提取以“ http:// ”开头的所有网络链接文本，以及数字1015362、1056332、1016552。

这是代码的一部分：

AA = soup.findAll(text="http:")
for BB in AA:
    print BB.renderContents()

我怎样才能让 BeautifulSoup 接收想要的文本？

score 2 · Accepted Answer

用于链接提取

for link in BeautifulSoup(page, parseOnlyThese=SoupStrainer('a')):
    if link.has_attr('href'):
        print link['href']

用于文本提取

text = soup.find('a').gettext()

python - 如何使用 BeautifulSoup 捡起想要的文字？

1 回答 1

Related

Reference