我需要从 HTML 文档中删除一些值和一些原始 HTML。我想过使用 XPath,但我无法让我的查询工作。
这是我想要实现的目标:
<div class="unit-id">
<div class="title">
some title-1
</div>
<div class="another-class">
another class
</div>
<p>segwegw1<p>
<p>segwegw1<p>
<p>segwegw1<p>
<p>segwegw1<p>
<ul>
<li>jfjfj</li>
<li>jfjfj</li>
<li>jfjfj</li>
</ul>
</div>
<div class="unit-id">
<div class="title">
some title-2
</div>
<div class="another-class">
some other class
</div>
<p>segwegw2<p>
<p>segwegw2<p>
<p>segwegw2<p>
<p>segwegw2<p>
</div>
<div class="unit-id">
<div class="title">
some title-3
</div>
<div class="some-other-class">
some other data
</div>
<p>segwegw3<p>
<p>segwegw3<p>
<p>segwegw3<p>
<p>segwegw3<p>
</div>
因此,我希望查询div
使用一个 unit-id 类遍历每个,并返回divs
一个类的值title
和 HTML 的其余部分,不包括任何更多divs
,所以只是分类的特定 unit-id 的p
标签和ul
东西div
,然后是下一次迭代。
那可能吗?你能给我提供一个如何编写这个查询的例子吗?有更好的方法吗?