0

我试图想出一种方法来浏览大约一百万份正式文件(为了论证,它们是论文文件)。它们并非都是标准化的,但足够接近。它们是标题、部分、段落等。可能会出现细微的差异,例如在英语中,我们称标题为“标题”,但在法语中为“Titre”。

因此,在我看来,最好的方法是创建一个包含所有可能的 Title 组合的 EBNF:= Title | 以滴度为例。

我不太关心提出 EBNF。我主要关心的是如何实现解析。我看过 ANTLR、OSLO、Irony 和许多其他人,但没有专业知识来判断它们是否适合我的任务。

所以,我对你们中的学者的问题是

  1. 您会推荐哪种 DSL 工具来解析这种规模的文档?
  2. 什么 DSL 工具在解析和匹配方面最准确(即我们是否必须为大写和小写定义规则,数字与罗马数字和外语(法语)呢?
  3. 是否有我没有考虑过您会推荐作为 DSL 替代方案的流程/算法?(从头开始重写是一种选择,但我想让一些东西快速工作)。
  4. 有没有人尝试将学习和智能添加到通过 DSL 解析的算法中(想想遗传算法和神经网络)?
  5. 你会在生产环境中使用这些 DSL 工具吗?

我选择的开发平台是 C#。我提到这一点是因为理想情况下我想将 DSL 工具集成到代码中,以便我们可以在现有应用程序中使用它。

4

1 回答 1

0

我遇到了一个名为TinyPG的工具。它不完全是我所需要的,但有源代码可以让我生成我需要的东西。

于 2010-02-16T20:47:41.787 回答