python - 如何使用 beautifulsoup 提取嵌套标签结构中的属性值？

Question

我有一个看起来与此类似的 html 文件：

<html>
...
<li class="not a user"> </li>
<li class="user">
 <a href="abs" ...> </a>
</li>
<li class="user">
 <a href="bss" ...> </a>
</li>
...
</html>

鉴于上述输入，我想用 class="user" 解析 li 标签并获取 href 的值作为输出。这可能在python中使用beautifulsoup吗？

我的解决方案是：

data="the above html code snippet"
soup=BeautifulSoup(data)
listset=soup("li","user")
for list in listset:
   attrib_value=[a['href'] for a in list.findAll('a',{'href':True})]

显然我在某处有一个错误，它只列出了最后一个锚标记的 href 的属性值。

score 2 · Accepted Answer

你的代码很好。-中有三个元素，listset并且attrib_value在循环的每次迭代中都会被覆盖，因此在程序结束时，它只包含来自最后一个元素的 href 值listset，即bss.

尝试这样做以保留所有值：

attrib_value += [a['href'] for a in list.findAll('a',{'href':True})]

并在循环（）之前将 attrib_value 初始化为空列表attrib_value = []。

python - 如何使用 beautifulsoup 提取嵌套标签结构中的属性值？

1 回答 1

Related

Reference