machine-learning - 名词短语分类模型？

Question

我需要一个模型来完成以下任务：

带有词性标签的单词序列。我想判断这个单词序列是否是名词短语。

我能想到的一种模型是 HMM。

对于那些是名词短语的序列，我们训练一个 HMM (HMM+)。对于那些不是名词短语，我们尝试使用 HMM(HMM-)。当我们对一个序列进行预测时，我们可以计算出 P(sequence|HMM+) 和 P(sequence|HMM-)。如果前者较大，我们认为这个短语是名词短语，否则不是。

你怎么看呢？你还有其他适合这个问题的模型吗？

score 0 · Accepted Answer

据我了解，您已经有了单词序列的 POS 标签。一旦有了单词序列的标签，如果序列是 NP，就不需要使用 HMM 进行分类。您需要做的就是寻找以下形式的模式：

限定词后跟名词
形容词后跟名词
限定词后接形容词后接名词

ETC

正如刚才有人提到的，HMM 用于获取新单词序列的 POS 标签。但是为此，您需要一个标记的语料库来训练 HMM。NLTK 软件中有一些可用的标记语料库。

如果您的序列已经被标记，那么只需使用前面答案中提到的语法规则。

score 0 · Accepted Answer

人们确实使用 HMM 来标记 POS 标记句子中的名词短语，但典型的模型设置并不能完全按照您描述的方式工作。

相反，设置（例如，请参阅名词短语的块标记器统计识别 (PDF)和使用基于 HMM 的块标记器 (PDF) 的命名实体识别）是使用具有三种状态的 HMM：

O（不在NP中），
B（NP的开头），
我（在 NP 中，但不是开头）。

HMM 将为句子中的每个单词分配一个状态。例如，句子：

/DT小子/NN打/VT/DT球/NN带/PP/DT红/ADJ球棒/NN./.

可能理想地标记如下：

/DT B小子/NN I击球/VT O /DT B球/NN I连/PP O /DT B冲/ADJ I击球/NN I. /. ○

这三个 HMM 状态之间的转换可以基于对序列如何表现的先验知识进行限制；特别是，您只能从 B 转换到 I，但其他转换都可能具有非零概率。然后，您可以在未标记文本的语料库上使用 Baum-Welch 来训练您的 HMM（以识别任何类型的块——例如，请参见使用级联有限状态模型 (PDF) 从原始文本中进行简单无监督语法归纳），或某种带有标记文本语料库的最大似然方法（以防您专门寻找名词短语）。

score -1 · Accepted Answer

我的直觉是 HMM 不是正确的模型。它可用于猜测 POS 标签，通过基于先验概率和从一个令牌到下一个令牌的条件概率推导具有最高概率的标签序列。

对于一个完整的名词短语，我看不出这个模型是如何匹配的。

任何基于概率的方法都很难训练，因为名词短语可以包含许多标记。这使得非常多的组合。要获得有用的训练概率，您需要非常庞大的训练集。

通过遵循 POS 标签中的描述，您可以通过在 POS 标签上制作一组语法规则（例如正则表达式）来快速轻松地获得一个足够好的开始。

http://en.wikipedia.org/wiki/Noun_phrase#Components_of_noun_phrases

或名词短语的任何其他语言描述。

machine-learning - 名词短语分类模型？

3 回答 3

Related

Reference