我有一些 HTML 需要解析为文本(在一个大文档中),我感兴趣的部分如下所示:
...
<div id="whatever" class="whatever whatever">some title with <em>html</em> and other such tags in it, but never a div tag</div>
...
现在我想用 HTML 摆脱 DIV 中的文本。这是正则表达式(使用组)的内容:
<div id=\"whatever\" class=\"whatever whatever\">(?<title>[^</div>]*?)</div>
所以我的想法是我将匹配整个内容,并获得一个包含所有文本的组,直到出现 </div > 的点(因为字符串末尾没有其他识别因素)。
[] 中的 ^ 不起作用,因为它是这些字符中的“任何”,而不是我想要的字符串“< /div >”。任何想法我如何使这项工作?