5

我正在使用 VisualStudio2010 通过 PCRE 进行一些正则表达式匹配。假设我有一个模式和一个主题,std::wstring如下所示:

std::wstring subject = L"サービス内容";
std::wstring pattern = L"ス内";

如您所见,我尝试定位日语字符串,因此我需要采用 PCRE 的 unicode 变体,例如 pcre16 或 pcre32 与函数pcre16_execpcre32_exec

不幸的是,它不起作用。我的问题似乎是从wstringunsigned short 或 unsigned int 转换(取决于 pcre16 或 pcre32)。我尝试了很多功能(wcstombs_s、使用 QString 进行字符串转换等)但没有成功。exec 函数的结果永远不会保持我期望的正确值。我不太确定出了什么问题 - 使用简单的 pcre 函数与 ansi 字符串进行模式匹配工作正常。这是一个片段:

pcre16 *re;
const char *error;
int erroffset;
int ovector[30]; //The reult of the matching
int subject_length;
int rc;

std::wstring subjectstr = L"サービス内容";
std::wstring patternstr = L"ス内";
subject_length = 6;

const unsigned short pattern = ....// string conversion from patternstr
const insigned short subject = ....// string conversion from subjectstr

re = pcre16_compile(&pattern, PCRE_UTF16, &error, &erroffset, NULL);
rc = pcre16_exec(re, NULL, &subject, subject_length, 0, 0, ovector, 30);

有人可以给我一个关于如何使用 PCRE 检测 unicode 模式或解释出了什么问题的工作示例吗?我对自己感到愤怒。

4

2 回答 2

1

我在这里找到了解决方案。

关键是从 wchar 到 const unsigned short (PCRE_SPTR16) 的非常简单的转换。我一直在尝试使用更复杂的转换......简而言之,这里有一个工作示例,任何人都可能感兴趣。模式匹配的结果可以在 subStrVec 中找到:

pcre16 *reCompiled;
int pcreExecRet;
int subStrVec[30];
const char *pcreErrorStr;
int pcreErrorOffset;  

std::wstring pattern = L"容内容";
std::wstring subject = L"容容容内容容容";

const wchar_t* aStrRegex = pattern.c_str();
const wchar_t* line = subject.c_str();

reCompiled = pcre16_compile((PCRE_SPTR16)aStrRegex, PCRE_UTF8, &pcreErrorStr, &pcreErrorOffset, NULL);
pcreExecRet = pcre16_exec(reCompiled, NULL, (PCRE_SPTR16)line, wcslen(line), 0, 0, subStrVec, 30);
于 2013-09-18T15:14:11.790 回答
0

尝试std::wstrings使用以下命令将转换为 C 字符串c_str

const unsigned short *pattern = subjectstr.c_str();
const unsigned short *subject = patternstr.c_str();

另请注意,对于 UTF-8、UTF-16 和 UTF-32,PCRE 库有不同的版本。该PCRE_UTF16标志仅适用于 16 位版本,反之亦然。

于 2013-09-18T14:52:47.607 回答