1

我正在学习如何使用名为Alex 1的 Haskell 词法分析器工具。

我正在尝试为此字符串(电子邮件“发件人:”标题)实现词法分析器:

From: "John Doe" <john@doe.org>

我想把它分解成这个令牌列表:

[
  From,
  DisplayName "John Doe",
  Email,
  LocalName "john",
  Domain "doe.org"
]

下面是我的实现。如果字符串不包含显示名称,它可以正常工作。也就是说,这很好用:

let s = "From: <john@doe.org>"
alexScanTokens s

但是,当我包含显示名称时,我会收到以下错误消息:

[From*** Exception: lexical error

也就是说,这会导致错误:

let s = "From: \"John Doe\" <john@doe.org>"
alexScanTokens s

我猜我的Alex程序的这一部分导致了错误:

\"[a-zA-Z ]+\"      { \s -> DisplayName (init (tail s)) }

左边Alex是一个正则表达式:

\"[a-zA-Z ]+\"

右侧是找到与正则表达式匹配的字符串时要执行的操作:

{ \s -> DisplayName (init (tail s)) }

关于问题可能是什么的任何想法?

这是我的词法分析器程序:

{
module Main (main) where
}

%wrapper "basic"

$digit = 0-9            -- digits
$alpha = [a-zA-Z]       -- alphabetic characters

tokens :-

  $white+                    ;
  From:                     { \s -> From }
  \"[a-zA-Z ]+\"            { \s -> DisplayName (init (tail s)) }
  \<                        { \s -> Email }
  [$alpha]+@                 { \s -> LocalPart (init s) }
  [$alpha\.]+>               { \s -> Domain (init s) }

{
-- Each action has type :: String -> Token

-- The token type:
data Token =
    From                               |
    DisplayName String                 |
    Email                              |
    LocalPart String                   |
    Domain String       
    deriving (Eq,Show)

main = do
  s <- getContents
  print (alexScanTokens s)
}

1 “Alex”词法分析器工具可以在这个 URL 找到:http ://www.haskell.org/alex/doc/html/introduction.html

4

1 回答 1

7

这是"John Doe"造成麻烦的空间。

空格在字符集中被忽略,例如[a-zA-Z ]. 要包含空格,您需要使用反斜杠对其进行转义,例如[a-zA-Z\ ].

另外,我不禁要注意,词法分析器可能是这项工作的错误工具。考虑使用例如Parsec编写适当的解析器。

于 2013-05-15T17:14:55.867 回答