.net - 使用 DSL 解析文档

Question

我试图想出一种方法来浏览大约一百万份正式文件（为了论证，它们是论文文件）。它们并非都是标准化的，但足够接近。它们是标题、部分、段落等。可能会出现细微的差异，例如在英语中，我们称标题为“标题”，但在法语中为“Titre”。

因此，在我看来，最好的方法是创建一个包含所有可能的 Title 组合的 EBNF：= Title | 以滴度为例。

我不太关心提出 EBNF。我主要关心的是如何实现解析。我看过 ANTLR、OSLO、Irony 和许多其他人，但没有专业知识来判断它们是否适合我的任务。

所以，我对你们中的学者的问题是

我选择的开发平台是 C#。我提到这一点是因为理想情况下我想将 DSL 工具集成到代码中，以便我们可以在现有应用程序中使用它。

score 0 · Accepted Answer

我遇到了一个名为TinyPG的工具。它不完全是我所需要的，但有源代码可以让我生成我需要的东西。

1 回答 1