c++ - 为什么 std::regex_iterator 会导致此数据的堆栈溢出？

Question

我一直在使用std::regex_iterator解析日志文件。我的程序已经运行了好几个星期，并且已经解析了数百万条日志行，直到今天，当今天我针对一个日志文件运行它时，出现了堆栈溢出。事实证明，日志文件中只有一个日志行导致了问题。有谁知道为什么我的正则表达式会导致如此大规模的递归？这是一个显示问题的小型自包含程序（我的编译器是 VC2012）：

#include <string>
#include <regex>
#include <iostream>

using namespace std;

std::wstring test = L"L3  T15356 79726859 [CreateRegistryAction] Creating REGISTRY Action:\n"
                L"  Identity: 272A4FE2-A7EE-49B7-ABAF-7C57BEA0E081\n"
                L"  Description: Set Registry Value: \"SortOrder\" in Key HKEY_CURRENT_USER\\Software\\Hummingbird\\PowerDOCS\\Core\\Plugins\\Fusion\\Settings\\DetailColumns\\LONEDOCS1\\Search Unsaved\\$AUTHOR.FULL_NAME;DOCSADM.PEOPLE.SYSTEM_ID\n"
                L"  Operation: 3\n"
                L"  Hive: HKEY_CURRENT_USER\n"
                L"  Key: Software\\Hummingbird\\PowerDOCS\\Core\\Plugins\\Fusion\\Settings\\DetailColumns\\LONEDOCS1\\Search Unsaved\\$AUTHOR.FULL_NAME;DOCSADM.PEOPLE.SYSTEM_ID\n"
                L"  ValueName: SortOrder\n"
                L"  ValueType: REG_DWORD\n"
                L"  ValueData: 0\n"
                L"L4  T15356 79726859 [CEMRegistryValueAction::ClearRevertData] [ENTER]\n";

int wmain(int argc, wchar_t* argv[])
{
    static wregex rgx_log_lines(
        L"^L(\\d+)\\s+"             // Level
        L"T(\\d+)\\s+"              // TID
        L"(\\d+)\\s+"               // Timestamp
        L"\\[((?:\\w|\\:)+)\\]"     // Function name
        L"((?:"                     // Complex pattern
          L"(?!"                    // Stop matching when...
            L"^L\\d"                // New log statement at the beginning of a line
          L")"                      
          L"[^]"                    // Matching all until then
        L")*)"                      // 
        );

    try
    {
        for (std::wsregex_iterator it(test.begin(), test.end(), rgx_log_lines), end; it != end; ++it)
        {
            wcout << (*it)[1] << endl;
            wcout << (*it)[2] << endl;
            wcout << (*it)[3] << endl;
            wcout << (*it)[4] << endl;
            wcout << (*it)[5] << endl;
        }
    }
    catch (std::exception& e)
    {
        cout << e.what() << endl;
    }

    return 0;
}

score 4 · Accepted Answer

在每个字符上测试的负前瞻模式对我来说似乎是个坏主意，而你想要做的并不复杂。您想匹配 (1) 行的其余部分，然后 (2) 任意数量的以下 (3) 行以 L\d 以外的内容开头（小错误；见下文）：（另一个编辑：这些是正则表达式；如果要将它们写为字符串文字，则需要更改\为\\.)

 .*\n(?:(?:[^L]|L\D).*\n)*
 |   |  |
 +-1 |  +---------------3
     +---------------------2

在 Ecmascript 模式下，.不应匹配 \n，但您始终可以.将该表达式中的两个 s替换为[^\n]

编辑添加：我意识到如果在日志条目结束之前有一个空行，这可能不起作用，但这应该涵盖这种情况；为了更加精确，我改为.：[^\n]

 [^\n]*\n(?:(?:(?:[^L\n]|L\D)[^\n]*)?\n)*

score 1 · Accepted Answer

正则表达式似乎没问题；至少其中没有任何东西会导致灾难性的回溯。

我认为优化正则表达式的可能性很小，减少了堆栈的使用：

static wregex rgx_log_lines(
    L"^L(\\d+)\\s+"             // Level
    L"T(\\d+)\\s+"              // TID
    L"(\\d+)\\s+"               // Timestamp
    L"\\[([\\w:]+)\\]"          // Function name
    L"((?:"                     // Complex pattern
      L"(?!"                    // Stop matching when...
        L"^L\\d"                // New log statement at the beginning of a line
      L")"                      
      L"[^]"                    // Matching all until then
    L")*)"                      // 
    );

您是否设置了 ECMAScript 选项？否则，我怀疑正则表达式库默认为 POSIX 正则表达式，并且那些不支持前瞻断言。

c++ - 为什么 std::regex_iterator 会导致此数据的堆栈溢出？

2 回答 2

Related

Reference