Python 中有很多 XML 和 HTML 解析器,我正在寻找一种简单的方法来提取 HTML 文档的一部分,最好使用 XPATH 构造,但这只是可选的。
这是一个例子
src = "<html><body>...<div id=content>AAA<B>BBB</B>CCC</div>...</body></html>"
我想用 id=content 提取元素的整个主体,所以结果应该是:<div id=content>AAA<B>BBB</B>CCC</div>
如果我可以在不安装新库的情况下做到这一点。
我还希望获得所需元素的原始内容(未重新格式化)。
不允许使用正则表达式,因为这些对于解析 XML/HTML 是不安全的。