8

我正在编写一个从简单文本文件中读取一些数据的应用程序。我感兴趣的数据文件具有以下形式的行:

Mem(100) = 120
Mem(200) = 231
Mem(43) = 12
...
Mem(1293) = 12.54

所以,正如你所理解的,每一行的模式是这样的

(\s)*(\t)*Mem([0-9]*) (\s,\t)*= (\s,\t)*[0-9]*(.)*[0-9]*

就像我在字符序列“Mem”之前有任意数量的空格,然后是左括号。然后,有一个数字和一个右括号。之后,在遇到“=”(等于)字符之前,会有任意数量的空格。然后,任意数量的空格,直到我遇到(可能)浮点数。

如何在 C++ 正则表达式模式中表达它?我对 C++ 中的正则表达式概念真的很陌生,所以我需要一些帮助。

谢谢

4

1 回答 1

27

首先,记得要#include <regex>

C++std::regex_match的工作方式与其他语言中的正则表达式类似。

让我们从一个简单的例子开始:

std::string str = "Mem(100)=120";
std::regex regex("^Mem\\([0-9]+\\)=[0-9]+$");
std::cout << std::regex_match(str, regex) << std::endl;

在这种情况下,我们的正则表达式是^Mem\([0-9]+\)=[0-9]+$. 让我们看一下它的作用:

  • ^开头告诉 C++ 这是行开始的地方,所以不AMem(1)=2应该匹配。
  • 最后$的 告诉 C++ 这是行结束的地方,所以Mem(1)=2x不应该匹配。
  • \\(是文字(字符。(在正则表达式中有非常特殊的含义,所以我们将其转义\(。但是,该\字符在 C++ 字符串中具有特殊含义,因此我们使用\\(来告诉 C++ 将 传递\(给正则表达式引擎。
  • [0-9]匹配一个数字。\\d也应该工作,但也许不是
  • [0-9]+表示至少一位数。如果Mem()可以接受,则[0-9]*改用。

如您所见,这就像您在其他语言(如 Java 或 C#)中找到的正则表达式。

现在,要考虑空格,请使用std::regex regex("^\\s*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+\\s*$");

请注意\s包括\t,因此无需同时指定两者。如果没有,您将使用(\s|\t)or [\s\t], not (\s,\t)

最后,要包含浮点数,我们首先需要考虑Mem(1) = 1.(即后面没有数字的点)是否可以接受。

如果不是,那么.23in1.23可选的。在正则表达式中,我们用它?来表示。

std::regex regex("^[\\s]*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+(\\.[0-9]+)?\\s*$");

请注意,我们使用\.而不仅仅是.. .在正则表达式中具有特殊含义——它匹配任何字符——所以我们需要对其进行转义。

如果您有一个支持原始字符串的编译器(例如Visual Studio 2013GCC 4.5Clang 3.0),您可以简化正则表达式字符串:

std::regex regex(R"(^[\s]*Mem\([0-9]+\)\s*=\s*[0-9]+(\.[0-9]+)?\s*$)")

要提取有关匹配字符串的信息,您可以使用std::smatchgroups

让我们从一个小改动开始:

std::string str = " Mem(100)=120";
std::regex regex("^[\\s]*Mem\\(([0-9]+)\\)\\s*=\\s*([0-9]+(\\.[0-9]+)?)\\s*$");
std::smatch m;

std::cout << std::regex_match(str, m, regex) << std::endl;

注意三点:

  1. 我们添加了smatch. 此类存储有关比赛的额外结果信息。
  2. 我们在 . 周围添加了额外的括号[0-9]*。这定义了一个组。组告诉正则表达式引擎跟踪其中的任何内容。
  3. 浮点数周围还有更多括号。这定义了第二组。

非常重要的是,定义组的括号不会被转义,因为我们不希望它们匹配实际的括号字符。我们实际上想要特殊的正则表达式含义。

现在我们有了这些组,我们可以使用它们:

for (auto result : m) {
    std::cout << result << std::endl;
}

这将首先打印整个字符串,然后是 中的数字Mem(),然后是最终数字。

换句话说,m[0]给我们整场比赛,m[1]给我们第一组,m[2]给我们第二组,m[3]如果我们有一个,会给我们第三组。

于 2013-10-11T21:52:29.213 回答