有没有办法在 Ocamllex 规范中设置不区分大小写的标记?我已经尝试以这种方式制作不区分大小写的令牌:
let token = parser
...
| ['C''c']['A''a']['S''s']['E''e'] { CASE }
...
但我正在寻找其他东西,如果存在的话。
使用接受小写和大写的普通标记词法分析器,并在表中查找关键字,忽略大小写:
{
type token = Case | Test | Ident of string
let keyword_tbl = Hashtbl.create 64
let _ = List.iter (fun (name, keyword) ->
Hashtbl.add keyword_tbl name keyword) [
"case", Case;
"test", Test;
]
}
let ident_char = ['a'-'z' 'A'-'Z' '_']
rule next_token = parse
| ident_char+ as s {
let canon = String.lowercase s in
try Hashtbl.find keyword_tbl canon
with Not_found ->
(* `Ident canon` if you want case-insensitive vars as well
* as keywords *)
Ident s
}
正如@gsg 所建议的,解决这个问题的正确方法是使用一个普通的接受小写和大写的词法分析器,然后在表中查找关键字。每个关键字都有一个正则表达式实际上是ocamllex的文档中提到的反模式:
12.7 常见错误
ocamllex: 转换表溢出,自动机太大 ocamllex 生成的确定性自动机最多限制为 32767 个转换。上面的消息表明您的词法分析器定义太复杂并且超出了此限制。这通常是由对语言的每个字母关键字具有单独规则的词法分析器定义引起的,如下例所示。[…]
http://caml.inria.fr/pub/docs/manual-ocaml-4.00/manual026.html#toc111
该文档继续使用一个明确的代码示例和一个使用查找表的重写。
查找表应该封装查找的“不区分大小写”,因此我们应该使用允许我们定义自己的比较函数的函数关联结构(阅读: Map或HashTbl )。由于我们的查找表可能是不可变的,我们选择Map:
{
type token = Case | Test | Ident of string
module KeywordTable =
Map.Make(struct
type t = string
let compare a b =
String.(compare (lowercase a) (lowercase b))
end)
let keyword_table =
List.fold_left
(fun (k, v) -> KeywordTable.add k v))
[
"case", Case;
"test", Test;
]
KeywordTable.empty
}
let ident_char = ['a'-'z' 'A'-'Z' '_']
rule next_token = parse
| ident_char+ as s {
try KeywordTable.find keyword_table s
with Not_found -> Ident s
}