我有以下 HTML 文件结构:
<table>
<tr class="heading">
<td colspan="2">
<h2 class="groupheader">Public Types</h2>
<!-- I don't want that! We're in a table.-->
</td>
</tr>
<tr>...</tr>
</table>
<h2 class="groupheader">Detailed Description</h2>
<!-- I want all that until the next h2-->
<div class="textblock"><p>Provides the functions to control the generation of a single data log file. </p>
<h4>Example</h4>
<div class="fragment"><div class="line">Test <a href="aaa">stuff</a>();</div>
<div class="line">...</div>
<div class="line">...</div>
</div>
</div> <!-- end of first result -->
<h2 class="groupheader">Member</h2>
<!-- I want all that until the next h2 or hr-->
<a class="anchor"></a>
<div class="memitem">
<div class="memproto">
<table class="memname">
<tr>
<td class="memname">enum <a class="el" href="...">test</a></td>
</tr>
</table>
</div><div class="memdoc">
<hr><!-- End of 2nd result -->
并且使用正则表达式,我需要获取每个标题之间的所有内容,直到下一个标题或 hr 标签,如果它是 a in a table。
到目前为止,我已经获得了所有 h2->h2|hr 内容。它是这样的:
(?s)(<h2 class="groupheader">.*?)(<h2|<hr)
如何跳过表中包含的 H2 下的内容?我试过带着消极的表情在后面胡思乱想,但我没有得到任何结果。
感谢您的帮助。