1

我需要解析和处理一大组半结构化文本(基本上是法律文件 - 法律文本、它们的附录、条约、法官的决定……)。我正在尝试做的最基本的事情是提取有关子部分结构的信息——章节、文章、副标题……以及一些元数据。我的问题是,是否有人可以指出这种类型的文本处理的起点,因为我确信对此进行了大量研究,但我发现主要是在解析具有严格语法的内容(如代码)或完全自由格式的文本(就像谷歌试图在网页上做的那样)。我想如果我掌握了正确的关键词,我会在 google 和我的期刊数据库中取得更大的成功。谢谢。

4

2 回答 2

1

自然语言工具包可能是一个有趣的开始,并且在自然语言处理的所有领域都有大量资源。它可能比您需要的更注重语言。

另一种选择是使用一些不那么严格的解析器生成器库(通常用于代码)(即,如果需要,您可以忽略大量文本)。在 python 中,我会推荐pyparsing。在另一个答案中,我展示了一个简单的示例,说明当您想忽略任意文本块时它可以做什么。

于 2009-08-31T17:46:53.880 回答
0

Never done this before, but if I was going to I'd definitely look into ANTLR. Its a pretty popular project and could very well have a port in your language of choice.

于 2009-08-31T16:51:20.607 回答