7

基于 PEG 的解析器生成器通常对无效输入提供有限的错误报告。从我读到的内容来看,rebol 的解析方言受到了用正则表达式扩展的 PEG 语法的启发。

例如,在 JavaScript 中键入以下内容:

d8> function () {}

给出以下错误,因为在声明全局函数时没有提供标识符:

(d8):1: SyntaxError: Unexpected token (
function () {}
         ^

解析器能够在解析过程中准确定位缺少预期标记的位置。预期标记的字符位置用于定位错误消息中的箭头。

rebol 中的解析方言是否提供内置工具来报告无效输入的行和列错误?

否则,是否有自定义推出的解析规则提供此类错误报告的示例?

4

2 回答 2

7

我已经完成了非常先进的 Rebol 解析器,它管理实时和关键任务 TCP 服务器,并且需要进行适当的错误报告。所以这很重要!

Rebol 的 PARSE 最独特的方面之一可能是您可以在规则中包含直接评估。所以你可以设置变量来跟踪解析位置,或者错误信息等。 (这很容易,因为 Rebol 的本质是将代码和数据混合为同一个东西是一个核心思想。)

这就是我的做法。在尝试每个匹配规则之前,我将解析位置保存到“这里”(通过写入here:),然后还使用代码执行将错误保存到变量中(通过放入(error: {some error string})括号以便解析方言运行它)。如果匹配规则成功,我们不需要使用错误或位置......我们只需继续下一条规则。但是如果它失败了,我们将拥有我们设置的最后一个状态,以在失败后报告。

因此,解析方言中的模式很简单:

; use PARSE dialect handling of "set-word!" instances to save parse
; position into variable named "here"

here:

; escape out of the parse dialect using parentheses, and into the DO 
; dialect to run arbitrary code.  Here we run code that saves an error
; message string into a variable named "error"

(error: "<some error message relating to rule that follows>")

; back into the PARSE dialect again, express whatever your rule is,
; and if it fails then we will have the above to use in error reporting

what: (ever your) [rule | {is}]

这基本上就是你需要做的。以下是电话号码的示例:

digit: charset "012345689"

phone-number-rule: [
    here:
    (error: "invalid area code")
    ["514" | "800" | "888" | "916" "877"]

    here:
    (error: "expecting dash")
    "-"

    here:
    (error: "expecting 3 digits")
    3 digit

    here:
    (error: "expecting dash")
    "-"

    here:
    (error: "expecting 4 digits")
    4 digit

    (error: none)
]

然后你可以看到它在行动。请注意,如果我们到达解析规则的末尾,我们将 error 设置为 none。如果还有更多输入要处理,PARSE 将返回 false,所以如果我们注意到没有设置错误但 PARSE 仍然返回 false ......我们失败了,因为有太多额外的输入:

input: "800-22r2-3333"

if not parse input phone-number-rule [
   if none? error [
        error: "too much data for phone number"
    ]
]

either error [
    column: length? copy/part input here newline
    print rejoin ["error at position:" space column]
    print error
    print input
    print rejoin [head insert/dup "" space column "^^"}
    print newline
][
    print {all good}
]

以上将打印以下内容:

error at position: 4

expecting 3 digits
800-22r2-3333
    ^

显然,您可以做更有效的事情,因为您放入括号中的任何内容都将像正常的 Rebol 源代码一样被评估。它真的很灵活。我什至有在加载大量数据集时更新进度条的解析器...... :-)

于 2013-07-04T23:48:15.650 回答
3

这是一个在解析字符串期间查找位置的简单示例,可用于执行您所要求的操作。

假设我们的代码仅在包含 a 和 b 字符时才有效,否则将是非法输入。

code-rule: [
    some [
        "a" |
        "b"
    ] 
    [ end | mark: (print [ "Failed at position" index? mark ]) ]
]

让我们用一些有效的代码检查一下

>> parse "aaaabbabb" code-rule
== true

现在我们可以用一些无效的输入再试一次

>> parse "aaaabbXabb" code-rule
Failed at position 7
== false

这是一种相当简化的示例语言,但应该很容易扩展到更复杂的示例。

于 2013-07-04T23:33:31.637 回答