0

我有以下 HTML 文件结构:

<table>
   <tr class="heading">
      <td colspan="2">
         <h2 class="groupheader">Public Types</h2> 
         <!-- I don't want that! We're in a table.-->
      </td>
   </tr>
   <tr>...</tr> 
</table>
<h2 class="groupheader">Detailed Description</h2>
  <!-- I want all that until the next h2-->
  <div class="textblock"><p>Provides the functions to control the generation of a single data log file. </p>
    <h4>Example</h4>
    <div class="fragment"><div class="line">Test <a href="aaa">stuff</a>();</div>
        <div class="line">...</div>     
        <div class="line">...</div>
    </div>
</div> <!-- end of first result -->

<h2 class="groupheader">Member</h2>
<!-- I want all that until the next h2 or hr-->
<a class="anchor"></a>
<div class="memitem">
<div class="memproto">
      <table class="memname">
        <tr>
          <td class="memname">enum <a class="el" href="...">test</a></td>
        </tr>
      </table>
</div><div class="memdoc">
<hr><!-- End of 2nd result -->

并且使用正则表达式,我需要获取每个标题之间的所有内容,直到下一个标题或 hr 标签,如果它是 a in a table

到目前为止,我已经获得了所有 h2->h2|hr 内容。它是这样的:

(?s)(<h2 class="groupheader">.*?)(<h2|<hr)

如何跳过表中包含的 H2 下的内容?我试过带着消极的表情在后面胡思乱想,但我没有得到任何结果。

感谢您的帮助。

4

1 回答 1

1

请注意,应该使用适当的解析器来解析 HTML

现在,因为我们只剩下看起来像 HTML 的输入和一个任务

获取每个标题之间的所有内容,直到下一个标题或 hr 标签,期待它是否在表格中

让我展示如何做到这一点。

您可以在缓和的贪婪令牌 的帮助下获得所需的子字符串((?:(?!<\/table|<h2|<hr)(?:<table\b[^<]*>.*?<\/table>|.))*)(匹配任何未在其之前的负前瞻中启动任何替代项的符号 - 因此,将匹配保持在<table>边界内 - 并匹配内部表) 最后有一个积极的前瞻:

(?s)<h2 class="groupheader">[^<]*<\/h2>\s*((?:(?!<\/table|<h2|<hr)(?:<table\b[^<]*>.*?<\/table>|.))*)(?=<h2|<hr)

演示

请注意,h2您可以使用而不是h\d+支持任何级别的h.

于 2015-08-19T20:38:08.423 回答