我有这个文本,我需要删除页码:
<p class="p3">El gabinete se iba iluminando lentamente ... Por delante de las</p>
<p class="p5"><span class="s4"><i>32</i></span> grandes nubes de un color violeta obscuro...</p>
<p class="p3">
我需要删除
</p>
<p class="p5"><span class="s4"><i>32</i></span>
从中。
到目前为止我有这个
sed -E -i '' 's/</p>\n<p class="p[0-9]+"[^>]*><span class=".+">.+<\/span> / /g' Capítulo1.html
但这不起作用,没有</p>\n
零件就可以工作,但我真的需要捕获和替换它</p>
。
请注意,这是在 Mac 上,sed 似乎与 Linux 有点不同。段落类也可以是任何以 p 开头后跟数字的东西,类似于 span 类 s 后跟数字,斜体标签可以存在或不存在,中间是页码。