我目前正在使用 BeautifulSoup 来提取 HTML 元素和属性。
我也想知道提取的每个元素的嵌套级别。
例如:
示例 HTML:
<html>
<head>
<title>Element Attributes Test</title>
</head>
<body>
<div id="abc">
<ol id="def">
<li class="testItem"> <a href="http://testpage.html">
</li>
<li class="testItem"> <table id="testTable">
<tr>
<td>
<div id="testDiv">
</div>
</td>
</tr>
</table>
</li>
</ol>
</div>
</body>
</html>
我想获取特定元素的路径信息作为路径列中的输出。
----------------------------------
Element | Attribute | Path
----------------------------------
html | None | document
----------------------------------
head | None | html
----------------------------------
title | None | html.head
----------------------------------
body | None | html
----------------------------------
div | id="abc" | html.body
-----------------------------------
ol | id="def" | html.body.div
-----------------------------------
li | class=".."| html.body.div.ol
-----------------------------------
a | href=".." | html.body.div.ol.li
-----------------------------------
li | class=".."| html.body.div.ol
-----------------------------------
table | id="..." | html.body.div.old.li
-----------------------------------
tr | None | html.body.div.li.table
-----------------------------------
我能够提取 Element 及其相关属性,但无法找到合适的方法来获取该特定元素的路径。
如何使用 BeautifulSoup 提取相同的内容?是否有任何其他库可以用来提取相同的内容?
提前致谢。