parsing - 自然语言处理/文本结构分析起点

Question

我需要解析和处理一大组半结构化文本（基本上是法律文件 - 法律文本、它们的附录、条约、法官的决定……）。我正在尝试做的最基本的事情是提取有关子部分结构的信息——章节、文章、副标题……以及一些元数据。我的问题是，是否有人可以指出这种类型的文本处理的起点，因为我确信对此进行了大量研究，但我发现主要是在解析具有严格语法的内容（如代码）或完全自由格式的文本（就像谷歌试图在网页上做的那样）。我想如果我掌握了正确的关键词，我会在 google 和我的期刊数据库中取得更大的成功。谢谢。

score 1 · Accepted Answer

自然语言工具包可能是一个有趣的开始，并且在自然语言处理的所有领域都有大量资源。它可能比您需要的更注重语言。

另一种选择是使用一些不那么严格的解析器生成器库（通常用于代码）（即，如果需要，您可以忽略大量文本）。在 python 中，我会推荐pyparsing。在另一个答案中，我展示了一个简单的示例，说明当您想忽略任意文本块时它可以做什么。

score 0 · Accepted Answer

Never done this before, but if I was going to I'd definitely look into ANTLR. Its a pretty popular project and could very well have a port in your language of choice.

parsing - 自然语言处理/文本结构分析起点

2 回答 2

Related

Reference