9

我有一个包含几十万份法律文件(主要来自欧盟)的语料库——法律、评论、法庭文件等。我试图通过算法来理解它们。

我已经模拟了已知的关系(时间、this-changes-that 等)。但在单文档级别,我希望我有更好的工具来快速理解。我对想法持开放态度,但这里有一个更具体的问题:

例如:是否有 NLP 方法来确定文档的相关/有争议的部分,而不是样板文件?最近泄露的TTIP论文有数千页的数据表,但其中某处的一句话可能会摧毁一个行业。

过去我玩过 google 的新Parsey McParfaceNLP 和其他 NLP 解决方案,但虽然它们工作得非常好,但我不确定它们在隔离意义方面有多好。

4

3 回答 3

5

为了使文档有意义,您需要执行某种语义分析。他们的例子有两种主要的可能性:

使用帧语义: http ://www.cs.cmu.edu/~ark/SEMAFOR/

使用语义角色标签 (SRL): http ://cogcomp.org/page/demo_view/srl

一旦您能够从文档中提取信息,您就可以应用一些后处理来确定哪些信息是相关的。查找哪些信息是相关的与任务相关,我认为您找不到提取“相关”信息的通用工具。

于 2017-11-02T16:44:32.847 回答
2

我看到你有一个有趣的用例。您还提到了语料库的存在(这是一个非常好的加分项)。让我讲述一个我为从研究论文中提取症结而草拟的解决方案。

为了使文档有意义,您需要触发器来告诉(或训练)计算机寻找这些“触发器”。您可以使用监督学习算法在最基本的级别上简单实现文本分类问题来解决此问题。但这需要事先的工作,最初需要领域专家的帮助,以便从文本数据中识别“触发器”。有一些工具可以提取句子的要点——例如,在句子中提取名词短语,根据共现分配权重并将它们表示为向量。这是您的训练数据。这是将 NLP 融入您的领域的一个非常好的开始。

于 2017-02-07T06:56:21.120 回答
0

不要使用触发器。您需要的是词义消歧和域适应。您想要理解的是文档中的含义,即理解语义以找出含义。您可以以 skos 或 json-ld 格式构建术语的合法本体,在知识图谱中将其表示为本体,并将其与依赖解析(如 tensorflow/parseymcparseface)一起使用。或者,您可以使用基于 kappa 的架构流式传输您的文档——例如使用 CoreNLP/Tensorflow/UIMA 添加中间 NLP 层的 kafka-flink-elasticsearch,使用 redis 在 flink 和 elasticsearch 之间缓存您的索引设置以加快进程。要了解相关性,您可以在搜索中应用特定案例。此外,应用情绪分析来确定意图和真实性。您的用例是信息提取之一,摘要和语义网络/链接数据。由于欧盟有不同的法律制度,您需要首先概括什么是真正的法律文件,然后将其缩小到与主题或地区相关的特定法律概念。您还可以在此处使用来自 LDA 或 Word2Vec/Sense2Vec 的主题建模技术。此外,Lemon 还可以帮助将词汇转换为语义,将语义转换为词汇,即 NLP->ontology ->ontology->NLP。本质上,将聚类提供给命名实体识别的分类。您还可以使用聚类来帮助您构建本体或使用余弦相似度查看文档或文档集中的词向量。但是,为了做到这一切,最好可视化文档的单词稀疏性。

于 2017-03-27T15:33:54.840 回答