c - 让 lex 读取 UTF-8 不起作用

Question

我编写了一个解析 ASCII 文件的 xml 解析器，但我现在需要能够读取 UTF-8 编码的文件。我在lex中有以下正则表达式，但它们与 UTF-8 不匹配。我不确定我做错了什么：

utf_8       [\x00-\xff]*
bom         [\xEF\xBB\xBF]

然后：

bom             { fprintf( stderr, "OMG I SAW A BOM"); return BOM;}
utf_8           { fprintf( stderr, "OMG I SAW A UTF CHAR", yytext[0] ); return UTF_8;}

我还有以下语法规则：

program 
: UTF8 '<' '?'ID attribute_list '?''>' 
root ...

哪里UTF8是：

UTF8

: BOM           {printf("i saw a bom\n");}
| UTF_8         {printf("i saw a utf\n");}
|               {printf("i didn't see anything.'\n");} 
;

它总是出现i didn't see anything，我的解析器适用于 ASCII 文件，即当我将 XML UTF-8 文件复制粘贴到一个空文档中时。

任何帮助，将不胜感激。

编辑：

这是一个修剪过的 .l 文件供参考：

%{
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include "y.tab.h"
int lines = 1;
%}

utf_8       [\x0000-\xffff]*
bom         [\xEF\xBB\xBF]
whitespace  [ \t]
ev          (.|{bom})
ev1         (.|{utf_8})
%%
{whitespace}    { fprintf( stderr, "%s", yytext );}
\n              { fprintf( stderr, "%s%d ", yytext, lines++ );}
.               { fprintf( stderr, "{TOKEN:%c}", yytext[0] ); return yytext[0];}
bom             { fprintf( stderr, "OMG I SAW A BOM"); return BOM;}
utf_8           { fprintf( stderr, "OMG I SAW A UTF CHAR", yytext[0] ); return UTF_8;}
%%

void error( char *message )
{
    fprintf( stderr, "Error: %s\n", message );
    exit(1);
}

score 8 · Accepted Answer

好的，这是你的问题：

utf_8       [\x0000-\xffff]*
bom         [\xEF\xBB\xBF]

这里有两个问题。首先，Flex 实际上并不理解 Unicode。它适用于字节。因此，您需要一个匹配任何有效 UTF-8字节序列的正则表达式宏。http://keithdevens.com/weblog/archive/2004/Jun/29/UTF-8.regex有一个正则表达式可以做到这一点，转换为 Flex 语法并不难（见下文）。其次，您的 BOM 宏中的方括号使其与值为 EF、BB 或 BF 的任何单个字节匹配，而不是您想要的三字节序列EB BB BF。

（顺便说一句，UTF-8 文件不应该有字节顺序标记，尽管很多都这样做。）

这是一个完整的 Flex 输入文件，它或多或少地完成了您似乎一直在尝试做的事情：

%{
#include <stdio.h>
%}

bom     \xEF\xBB\xBF
white   [ \t]

u2a     [\xC2-\xDF][\x80-\xBF]
u2b     \xE0[\xA0-\xBF][\x80-\xBF]
u3a     [\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}
u3b     \xED[\x80-\x9F][\x80-\xBF]
u4a     \xF0[\x90-\xBF][\x80-\xBF]{2}
u4b     [\xF1-\xF3][\x80-\xBF]{3}
u4c     \xF4[\x80-\x8F][\x80-\xBF]{2}

utf_8   {u2a}|{u2b}|{u3a}|{u3b}|{u4a}|{u4b}|{u4c}

%%

{white}     { putchar(' ');  }
\n          { putchar('\n'); }
{bom}       { putchar('B');  }
{utf_8}     { putchar('u');  }
[\x21-\x7e] { putchar('.');  }
.           { putchar('^');  }

c - 让 lex 读取 UTF-8 不起作用

1 回答 1

Related

Reference