我有一个包含几十万份法律文件(主要来自欧盟)的语料库——法律、评论、法庭文件等。我试图通过算法来理解它们。
我已经模拟了已知的关系(时间、this-changes-that 等)。但在单文档级别,我希望我有更好的工具来快速理解。我对想法持开放态度,但这里有一个更具体的问题:
例如:是否有 NLP 方法来确定文档的相关/有争议的部分,而不是样板文件?最近泄露的TTIP论文有数千页的数据表,但其中某处的一句话可能会摧毁一个行业。
过去我玩过 google 的新Parsey McParface
NLP 和其他 NLP 解决方案,但虽然它们工作得非常好,但我不确定它们在隔离意义方面有多好。