如果我有文字:
text = '<span id="foo"></span> <div id="bar"></div>'
使用可以更改的文本(可能没有任何 id),我如何使用 BeautifulSoup 来获取 id 名称而不管标签名称(返回 ['foo','bar'])。我对 BeautifulSoup 没有那么有经验,并且对执行此任务感到困惑。
如果我有文字:
text = '<span id="foo"></span> <div id="bar"></div>'
使用可以更改的文本(可能没有任何 id),我如何使用 BeautifulSoup 来获取 id 名称而不管标签名称(返回 ['foo','bar'])。我对 BeautifulSoup 没有那么有经验,并且对执行此任务感到困惑。
您需要获取带有 id 属性的标签,然后将 id 属性的值返回到字符串,例如
from BeautifulSoup import BeautifulSoup
text = '<span id="foo"></span> <div id="bar"></div>'
pool = BeautifulSoup(text)
result = []
for tag in pool.findAll(True,{'id':True}) :
result.append(tag['id'])
和结果
>>> result
[u'foo', u'bar']