我的意思是???
标题中的,因为我不确定。让我解释一下情况。
我不是计算机科学专业的学生,而且我从未上过任何编译器课程。到目前为止,我一直认为编译器编写者或修过编译器课程的学生很优秀,因为他们必须用他们编写编译器的任何语言编写编译器的 Parser 组件。这不是一件容易的工作,对吧?
我正在处理信息检索问题。我想要的编程语言是 Python。
Parser Nature: http:
//ir.iit.edu/~dagr/frDocs/fr940104.0.txt是样本语料库。该文件包含大约 50 个带有一些 XML 样式标记的文档。(您可以在上面的链接中看到它)。我需要记下其他一些其他值,例如<DOCNO> FR940104-2-00001 </DOCNO>
& <PARENT> FR940104-2-00001 </PARENT>
,我只需要索引<TEXT> </TEXT>
文档的一部分,其中包含一些我需要删除的不同标签以及许多<!-- -->
要忽略的注释和一些&hyph; &space; &
字符实体。我不知道为什么语料库有这样的东西,因为它知道它既不是要由浏览器呈现,也不是正确的 XML 文档。
我想过使用任何 Python XML 解析器并提取所需的文本。但经过一番搜索后,我找到了我在这里使用的同一个语料库的JavaCC 解析器源代码 (Parser.jj)。快速查看JavaCC和 Compiler-compiler后发现,编译器编写者并没有我想象的那么好。他们使用 Compiler-compiler 生成所需语言的解析器代码。Wiki 说编译器的输入是一种语法(通常在 BNF 中)。这就是我迷路的地方。
- Parser.jj是语法(输入到称为 JavaCC 的编译器编译器)吗?这绝对不是 BNF。这个语法叫什么?为什么这个语法有Java语言?没有通用的语法语言吗?
- 我想要python解析器来解析语料库。有什么方法可以翻译 Parser.jj 以获得等效的 python 吗?如果是,那是什么?如果没有,我的其他选择是什么?
- 有没有人知道这个语料库是什么?它的原始来源在哪里?我想看看它的一些描述。它以名称分布在互联网上
frDocs.tar.gz