假设有一句话:
On March 1, he was born.
将其更改为
He was born on March 1.
不会破坏句子的意义,它仍然有效。以任何其他方式洗牌会产生奇怪的无效句子。所以基本上,我说的是句子的一部分,它使信息更具体,但删除它们并不会破坏整个句子。是否有任何 NLP 库可以识别这些部分?
假设有一句话:
On March 1, he was born.
将其更改为
He was born on March 1.
不会破坏句子的意义,它仍然有效。以任何其他方式洗牌会产生奇怪的无效句子。所以基本上,我说的是句子的一部分,它使信息更具体,但删除它们并不会破坏整个句子。是否有任何 NLP 库可以识别这些部分?
成分股
听起来您想识别句子的成分,它们是根据语言语法作为单个单元运行的单词组。
事实上,当语言学家试图发现一种语言的语法时,他们部分地通过观察运动来做到这一点。就像在您的示例中一样,这是可以将一组单词移动到句子中的不同位置的地方,同时仍保留句子的含义。
成分可以是单个单词、短语,甚至是更大的组,例如整个子句。在一个句子中,它们具有嵌套的层次结构。例如,您给出的第一个例句可以分析为:
(S (PP (IN On) (NP (NNP March) (CD 1)))
(NP (PRP he))
(VP (VBD was) (VP (VBN born))))
整个句子由介词短语、名词短语和动词短语组成。介词短语可以进一步分解为一个由单个单词“On”后跟一个名词短语组成的单元。
短语结构解析器
要自动查找成分,您可能需要使用短语结构解析器。有许多这样的解析可供选择,它们可以作为开源使用,包括:
斯坦福和伯克利解析器可能是最容易安装和使用的。正如Cer 等人所见。2010 年,最准确的解析器是 Berkeley 和 Charniak。Bikel 解析器比其他解析器更慢且准确性更低。
在线演示
这里有一个斯坦福解析器的在线演示。我使用演示来生成上面给出的例句解析。
关于删除的说明
在每个成分中,都会有一个中心词。以名词短语为例:
(NP (DT The) (JJ big) (JJ blue) (NN ball))
这里的中心词是名词ball
,由形容词big
and修饰blue
。如果这个名词短语被嵌入到一个句子中,你可以删除那些修饰语,并且仍然有一些与原始句子的含义一致但不那么具体的东西。
在名词短语中,一般可以删除形容词、非中心名词和嵌套介词短语。
在动词短语和完整从句中,事情变得更加棘手,因为删除作为动词参数的材料可以完全改变句子的解释。例如,the book
从He sold Jim the book
结果中删除He sold Jim
.