3

我正在寻找一个正则表达式来匹配 C++ 项目中的 MBCS 字符串。这些是包含在双引号中的字符串,没有L"..."or_T("...")说明符。任何代码行都可以有多个引号。字符串可以包含不应结束匹配的转义子字符串。这里有一些例子:

"This is a MBCS string"; // "This is a MBCS string" match
_T("This is maybe a unicode string"); // no match
L"This is a unicode string"; // no match
"These both" + "should match"; // "These both" and "should match" match
"This is a \"quoted\" string"; // "This is a \"quoted\" string" match

我有一个正则表达式,可以使用负回溯来处理所有这些问题,(?<!#include )(?<!_T\()(?<!\\)(?<!L)\"(.*?)\"(?<!\\\")但它变得更加复杂。它开始在一行上混合字符串类型出现问题。

_T("Maybe this") + "is a match"; // "is this" match but instead would match ") + "
do_something(_T("This doesn't match")) + do_something("but this does match"); // "but this does match" match but instead it matches ")) + do_something("

如何让正则表达式_T("")L""单词不匹配,但仍然匹配它们以吃掉结束引号而不将其作为匹配项返回?

编辑:这个正则表达式 ,(?:_T\(\"[^\"]+\"\).*?|L\"[^\"]+\".*?)*(?<!#include )(?<!_T\()(?<!L)(?<!\\)\"(.*?)\"(?<!\\\")几乎可以完成这项工作,但还有一个测试用例失败了,我最初没想过要包括在内。

_T("don't match this") + _T("or this"); // shouldn't match anything, matches ") + _T("
4

1 回答 1

2

您实际上可能会匹配_TandL部分,以便它们在之前的匹配中被消耗:

(?:_T\(\"[^\"]+\"\).*?|L\"[^\"]+\".*?)?(?<!#include )(?<!_T\(|L|\\)\"(.*?)\"(?<!\\\")

我还缩短了负面的lookbehinds。

正则表达式101演示

于 2013-10-01T20:19:26.377 回答