(我是 Python 的新手。阅读 BeautifulSoup DOC 但仍然不知道如何使用它)。
我正在尝试使用 BeautifulSoup 从网页中提取一些信息。
网页的 HTML 源代码包含:
<TD class=genmed align=left><A href="http://m.harveynorman.com.au/ipod-shuffle-2gb.html">1015362</A></TD>
<TD class=genmed align=left><A href="http://m.harveynorman.com.au/ipod-touch-16gb-black-and-silver.html">1056332</A></TD>
<TD class=genmed align=left><A href="http://m.harveynorman.com.au/ipod-nano-16gb.html">1016552</A></TD>
我想提取以“ http:// ”开头的所有网络链接文本,以及数字1015362、1056332、1016552。
这是代码的一部分:
AA = soup.findAll(text="http:")
for BB in AA:
print BB.renderContents()
我怎样才能让 BeautifulSoup 接收想要的文本?