3

对于以下页面:

http://www.aidn.org.au/Industry-ViewCompany.asp?CID=3113

我有以下抓取代码:

findit = soup.find_all("td", "Page-Headers", align="left")
print findit

它返回以下内容:

[<td align="left" class="Page-Headers" valign="middle">Aerospace Materials Pty Ltd</td>]

目前很好。

如何使用 BeautifulSoup 从该模式返回文本元素(“Aerospace Materials Pty Ltd”)?或者是在这个输出上简单地进行正则表达式的最好方法?

谢谢!

4

2 回答 2

3

采用getText

for td in soup_result:
    print td.getText()

或者正如@Zero Piraeus 指出的那样,bs4您应该使用.get_text()

于 2012-11-18T15:48:54.137 回答
2

您可以使用该.string属性:

>>> for el in findit:
...   print el.string
... 
Aerospace Materials Pty Ltd
>>> 
于 2012-11-18T15:47:39.277 回答