0

我想删除一个 HTML 标记结尾和另一个 HTML 标记开头之间的文本。

页面上的标签之间有不同的文本。当然,页面上也有多个不同的块也被删除。

</h1>
Section: ab (1)<br>Updated: 2015-05-01<br><a href="file:///home/gareththomasnz/Desktop/VirtualBoxShare/merged.html#2_index">Index</a>
<a href="file:///man/man2html">Return to Main Contents</a><hr>

<p>
<a name="2_lbAB">&nbsp;</a>
</p><h2>

必须删除整个页面中 /H1 和 H2 标记之间的所有内容。

尝试了一些东西,但不能让它工作 - 有什么建议吗?

4

2 回答 2

0

打开DOTALL并使用不情愿的量词:

Search: (?s)(?<=</h1>).*?(?=<h2>)
Replace: <blank>

注意:我不熟悉 powergrep,所以它可能使用“斜线分隔”正则表达式语法,所以:

/(?<=</h1>).*?(?=<h2>)/s
于 2016-02-13T04:08:11.373 回答
0

http://sundstedt.se/blog/delete-specific-text-blocks-between-two-characters/

这是一个解决方案

在不使用正则表达式的情况下删除任何字符之间的随机文本块

于 2016-02-13T03:41:36.780 回答