regex - 将 NFA 转换为正则表达式

Question

我在这个网站上发现了同样的问题，答案是描述如何将 NFA 转换为 regex 的 PDF。但这不起作用，因为这种方法有一些条件：

有从初始状态到所有其他状态的转换，并且没有到初始状态的转换。
有一个接受状态，只有转换进入它（并且没有传出转换）。
接受状态不同于初始状态。
除了初始状态和接受状态外，所有其他状态都通过转换连接到所有其他状态。特别是，每个状态都有到自身的转换。

在我的示例中，开始状态只是进入下一个状态，而不是所有状态（例如，q0 进入 q1 但没有进入 q2、q3），并且有到开始状态的转换。

那么将 NFA 转换为正则表达式的最简单方法是什么？我没有给出 NFA 示例，因为我没有一个特定的示例，这只是一个一般性问题，因为我遇到了这种 DFA，其中开始状态与所有状态不相关，并且是过渡到开始状态。

我想要一个通用算法来转换这种 NFA。

score 4 · Accepted Answer

答案是假设这些条件，因为可以修改任何 NFA 以适应这些要求。

对于任何类型的 NFA，您都可以添加一个新的初始状态 q ₀，它具有到原始初始状态的 epsilon-transition，并且还使用一个称为 ∅ 的附加转换符号（他们称之为空集符号，假设是一个符号不匹配来自原始 NFA 的任何符号）从它到任何其他状态，然后使用这个新状态作为新的初始状态。请注意，这不会更改原始 NFA 接受的语言。这将使您的 NFA 满足第一个条件。

对于任何类型的 NFA，您都可以添加一个新的接受状态 q _a，它具有来自原始 NFA 中所有接受状态的 epsilon-transition。然后将此标记为唯一的接受状态。请注意，这不会更改原始 NFA 接受的语言。这将使您的 NFA 满足第二个条件。

通过上述构造，通过设置 q ₀ != q _a，它满足第三个条件。

在您提供的链接中，第四个条件通过一个名为∅（空集符号）的特殊转换符号来解释，原始 NFA 中的任何实际字母都无法匹配。因此，您可以使用这个新符号添加从每个状态到任何其他状态的转换。请注意，这不会更改原始 NFA 接受的语言。

所以现在 NFA 已经被修改为满足这四个要求，你可以应用那里的算法将 NFA 转换为正则表达式，它将接受与原始 NFA 相同的语言。

编辑以回答进一步的问题：

要在评论中回答您的问题，请考虑具有两个状态 q _A和 q _B的 NFA 。q _A是初始状态，也是唯一的接受状态。我们有一个从 q _A到其自身的转换，符号为 0,1。我们也有从 q _A到 q _B的转换，符号为 1。最后，我们有从 q _B到 q _{A 的}转换，符号为 0。

可视化：

0,1    
  | 1
->q _A ----->q _B
  ^ |
  |-------|
     0

步骤 2. 当我们对 NFA 进行归一化时，只需放入指向 q _{A的新初始状态 (q}_{init )，并从 q}_A放入新的接受状态 (q _acc ) 。

步骤 3. 我们要删除 q _A。所以 q _A是算法中的 q _rip（在第 3 页）。现在我们需要考虑进入 q _{A 的}每个状态和退出 q _A的每个状态。在这种情况下，有两个状态指向 q _A，即 q _init和 q _B。_{q A}指向两个状态，即 q _B和 q _acc。通过该算法，我们将转换 q _in ->q _rip ->q _out替换为转换 q _in ->q _out，具有转换符号 R_dir +R _in (R _rip )*R _out，其中：

R _dir是从 q _in到 q _{out的原始转换}
R _in是从 q _in到 q _{rip的原始转换}
R _{rip是 q}_rip处的原始循环
R _out是从 q _rip到 q _{out的原始转换}

所以在这种情况下，我们将转换 q _init ->q _A ->q _B替换为 q _init ->q _B和转换符号 (0+1)*1。继续这个过程，我们将总共创建 4 个新的过渡：

q_初始化-> q _B : (0+1)*1
q _init -> q _acc : (0+1)*
q _B ->q _B : 0(0+1)*1
q _B ->q _acc : 0(0+1)*

然后我们可以删除 q _A。

第 4 步。我们要删除 q _B。同样，我们确定了 q _in和 q _out。这里只有一个状态进入 q _B，即 q _init，而离开 q _B的只有一个状态，即 q _acc。所以我们有：

R_目录= (0+1)*
R _in = (0+1)*1
R_撕裂= 0(0+1)*1
输出= 0(0+1 ₎ *

所以新的转换 q _init ->q _acc将是：

R _dir +R _in (R _rip )*R _out

(0+1)* + (0+1)*1 (0(0+1)*1)* 0(0+1)*

我们可以删除 q _B。

步骤 5. 由于原始 NFA 中的每个状态都已删除，因此我们完成了。所以最终的正则表达式如上所示。

请注意，最终的正则表达式可能不是最优的（在大多数情况下也不是最优的），这是算法所期望的。一般而言，为 NFA（甚至 DFA）找到最短的正则表达式非常困难（尽管对于这个示例，很容易看出第一个组件已经涵盖了所有可能的字符串）

为了完整起见，接受相同语言的最短正则表达式将是：

(0+1)*

regex - 将 NFA 转换为正则表达式

1 回答 1

Related

Reference