epub - 加入断断续续的段落 HTML 正则表达式

Question

我正在尝试xhtml在Sigil.

用命令

([az])

我能够找到所有以小写开头的段落。这告诉我，它们不应该与前一个分开。这只是一个转换问题。

为了将两个文本块合并为一个段落，我应该怎么做才能删除该段落中的和上一个段落中的？

它看起来像这样：

...这就是为什么关系

不是他们应该的样子。

它应该是：

这就是为什么关系不是他们应该的样子。

score 0 · Accepted Answer

或者通过检查Dot Matches All的最简单方法：

<p>(.+?)</p>

然后你只替换为：$1或/1（组）

它将仅保留文本块。

(.+?)- 直到第一个实体（如斜杠或>等）之前的所有内容。

(.*?)- 包括实体在内的一切。（小心！）

建立你的regex：

希望这可以帮助您更好地理解您的问题。

score 0 · Accepted Answer

我不太确定 Sigil，但以下正则表达式应该能够做到这一点：

首先找到：

</p>\s*<p>(\s*[a-z])

将其替换为：

$1

这意味着什么：

\s* : 任意数量的空格

$1 : 替换后保留的组 ()

2 回答 2