我正在尝试解析看起来像这样的 html 列表的元素:
<ol>
<li>r1</li>
<li>r2
<ul>
<li>n1</li>
<li>n2</li>
</ul>
</li>
<li>r3
<ul>
<li>d1
<ol>
<li>e1</li>
<li>e2</li>
</ol>
</li>
<li>d2</li>
</ul>
</li>
<li>r4</li>
</ol>
在大多数情况下,我可以很好地解析它,但对我来说最大的问题是取回 dom 文本。不幸的是,lxml 的 node.text_content() 返回它下面的完整树的文本形式。我可以使用 lxml 获取该元素的文本内容,还是需要为此使用字符串操作或正则表达式?
例如:具有 d1 的节点返回“d1e1e2”,而我希望它只返回 d1。