我需要解析和处理一大组半结构化文本(基本上是法律文件 - 法律文本、它们的附录、条约、法官的决定……)。我正在尝试做的最基本的事情是提取有关子部分结构的信息——章节、文章、副标题……以及一些元数据。我的问题是,是否有人可以指出这种类型的文本处理的起点,因为我确信对此进行了大量研究,但我发现主要是在解析具有严格语法的内容(如代码)或完全自由格式的文本(就像谷歌试图在网页上做的那样)。我想如果我掌握了正确的关键词,我会在 google 和我的期刊数据库中取得更大的成功。谢谢。
问问题
1115 次
2 回答
0
Never done this before, but if I was going to I'd definitely look into ANTLR. Its a pretty popular project and could very well have a port in your language of choice.
于 2009-08-31T16:51:20.607 回答