0

我的字符串看起来像这样

macd_at([{1036}].CLOSE,10,10,10).UPPER 

在这个字符串中,我试图匹配这个正则表达式

([a-zA-Z][a-zA-Z0-9_]*_(at|AT)\((((\[\{[0-9]+\}\](\.(OPEN|CLOSE|LOW|HIGH))?)|[1-9][0-9]*\.?[0-9]*|(TRUE|FALSE)|\"[^"]*\"),)*((\[\{[0-9]+\}\](\.(OPEN|CLOSE|LOW|HIGH))?)|[1-9][0-9]*\.?[0-9]*|(TRUE|FALSE)|\"[^"]*\")\)(\.(VALUE|UPPER|LOWER|PRICE))?)

在检查正则表达式的在线站点中,这是匹配的,但是当我调用 std::regex_search 它不起作用。VS C++ 库中是否有一些错误?

当我改变字符串

macd_at([{1036}],10,10,10).UPPER 

std::regex_search 正在工作。正则表达式的复杂程度是否有一些限制。

PS:正则表达式构建过程如下(为了更容易查找正则表达式):

const std::string NUMBER_REGEX_PATERN = "[1-9][0-9]*\\.?[0-9]*";
const std::string OPERATOR_REGEX_PATERN = "(\\*|/|-|\\+)";
const std::string SYMBOL_REGEX_PATERN = "\\[\\{[0-9]+\\}\\]";
const std::string SYMBOL_SUFFIX_REGEX_PATERN = "(\\.(OPEN|CLOSE|LOW|HIGH))";
const std::string SYMBOL_WHOLE_REGEX_PATERN = "(" + SYMBOL_REGEX_PATERN + SYMBOL_SUFFIX_REGEX_PATERN + "?)";
const std::string STRING_REGEX_PATERN = "\\\"[^\"]*\\\"";
const std::string BOOLIAN_REGEX_PATERN = "(TRUE|FALSE)";
const std::string LITERAL_REGEX_PATERN = "(" + SYMBOL_WHOLE_REGEX_PATERN + "|" + NUMBER_REGEX_PATERN + "|" + BOOLIAN_REGEX_PATERN +"|" + STRING_REGEX_PATERN + ")";

const std::string STUDY_NAME_REGEX_PATERN = "[a-zA-Z][a-zA-Z0-9_]*_(at|AT)";
const std::string STUDY_SUFFIX_REGEX_PATERN = "(\\.(VALUE|UPPER|LOWER|PRICE))";
const std::string WHOLE_STUDY_REGEX_PATERN = STUDY_NAME_REGEX_PATERN + "\\((" +LITERAL_REGEX_PATERN + ",)*"+ LITERAL_REGEX_PATERN + "\\)";
const std::string WHOLE_STUDY_WITH_SUFIX_REGEX_PATERN = "(" + WHOLE_STUDY_REGEX_PATERN + STUDY_SUFFIX_REGEX_PATERN + "?)";
4

1 回答 1

1

看到模式的复杂性,过度回溯可能是个问题。可以显着减少回溯的一点是倒数第二个构建块。尝试改变

...(" +LITERAL_REGEX_PATERN + ",)*"+ LITERAL_REGEX_PATERN...

进入

...LITERAL_REGEX_PATERN + "(" +LITERAL_REGEX_PATERN + ",)*"...

这是展开循环技术的一种简化形式,并且大大减少了回溯的数量。请注意,两种模式都匹配完全相同的字符串。

还有一点需要优化:

如果您不需要所有捕获组(我怀疑您是否需要它们,因为其中一些在重复中被覆盖),请将它们变成非捕获组。例如

(?:\\.(?:OPEN|CLOSE|LOW|HIGH))

尤其是结合回溯,不必要的捕获会变得非常昂贵。

于 2013-07-08T12:51:05.507 回答