7

我想从正文中提取信息并能够查询它。

该文本正文的结构将由 BNF 语法(或变体)指定,要提取的信息将在运行时指定(此时查询的语法无关紧要)。

所以要求很简单,真的:

  • 接收一些结构化的正文
  • 使用语法以可利用的形式加载它来解析它
  • 运行查询以选择其中的某些部分

举个例子,假设我们有这样的语法(定制的 BNF 格式):

<digit> ::= 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9
<id> ::= 15 * digit

<hex> ::= 10 * (<digit> | a | b | c | d | e | f)

<anything> ::= <digit> | .... (all characters)

<match> ::= <id> (" " <hex>)*

<nomatch> ::= "." <anything>*

<line> ::= (<match> | <nomatch> | "") [<CR>] <LF>

<text> ::= <line>+

此类文本将符合的内容:

012345678901234
012345678901234 abcdef0123

Nor the previous line nor this one would match

然后我想列出规则中出现的所有标签,例如使用类似 XPath 的语法:

match//id

这将返回一个列表。


这听起来相对容易,除了我有两个很大的限制:

  • BNF 语法应在运行时读取(从类似字符串/向量的结构)
  • 查询也将在运行时读取

一些精度:

  • 语法预计不会经常更改,因此生成内存结构的“编译”步骤是可以接受的(并且可能是实现良好速度所必需的)
  • 速度至关重要,即时收集所需部分的奖励积分
  • 有可能通过回调消除歧义的奖励积分(例如,有时必要的消除歧义信息可能需要数据库访问)
  • 多部分语法的加分(有利于语法元素的模块化和重用)

例如,我知道 lex/yacc 和 flex/bison,但是它们似乎只创建要编译的 C/C++ 代码,这不是我所关心的。

您是否知道一个强大的库(最好是免费和开源的),它可以将 BNF 语法“即时”转换为解析器,并使用该解析器从文本体中生成结构化的内存输出?

编辑:我对替代品持开放态度。目前的想法是,也许正则表达式可以允许这种提取,但是考虑到所涉及的语法的复杂性,这可能会很快变得丑陋,因此维护正则表达式将是一项非常可怕的任务。此外,通过分离语法和提取,我希望能够针对不同的提取需求重用相同的语法,而不是每次都有稍微不同的正则表达式。

4

2 回答 2

2

我有一个专有的解决方案,可以将语法源转换为内存表示。结果是一个纯数据结构。任何代码都可以使用它。我也有实际实现解析器的 C++ 类。规则处理程序被实现为虚拟方法。

我们的解决方案与 YACC/Bison 的主要区别在于不生成 C/C++ 代码。这意味着可以在不重新编译应用程序的情况下重新加载语法。语法可以用在规则处理程序代码中使用的应用程序 ID 进行注释。

于 2012-06-13T20:05:03.240 回答
1

GOLD 解析器系统生成一个 LALR 解析表,该表在运行时显然已加载 AFAIK。我相信它有一个 C++“解析”引擎,所以应该很容易集成。

你会阅读你的语法,派生一个子进程来让 GOLD 解析器生成器生成表,然后调用你的有线 GOLD 解析器来加载和解析。

我不知道您如何将操作附加到您可能想要做的减少操作。我对 GOLD 没有具体的经验。祝你“黄金”好运。

于 2012-06-13T20:26:50.493 回答