python - 使用 NLTK 将分词器组合成语法和解析器

Question

我正在阅读 NLTK 书，但我似乎无法做一些看起来是构建体面语法的自然第一步。

我的目标是为特定的文本语料库构建语法。

（最初的问题：我是否应该尝试从头开始学习语法，还是应该从预定义的语法开始？如果我应该从另一种语法开始，哪个是英语的好开始？）

假设我有以下简单的语法：

simple_grammar = nltk.parse_cfg("""
S -> NP VP
PP -> P NP
NP -> Det N | Det N PP
VP -> V NP | VP PP
Det -> 'a' | 'A'
N -> 'car' | 'door'
V -> 'has'
P -> 'in' | 'for'
 """);

这个语法可以解析一个很简单的句子，比如：

parser = nltk.ChartParser(simple_grammar)
trees = parser.nbest_parse("A car has a door")

现在我想扩展这个语法来处理带有其他名词和动词的句子。如何在不手动定义语法的情况下将这些名词和动词添加到我的语法中？

例如，假设我希望能够解析句子“A car haswheels”。我知道提供的标记器可以神奇地找出哪些单词是动词/名词等。我如何使用标记器的输出来告诉语法“轮子”是名词？

score 16 · Accepted Answer

您可以在文本上运行 POS 标记器，然后调整语法以处理 POS 标记而不是单词。

> text = nltk.word_tokenize("A car has a door")
['A', 'car', 'has', 'a', 'door']

> tagged_text = nltk.pos_tag(text)
[('A', 'DT'), ('car', 'NN'), ('has', 'VBZ'), ('a', 'DT'), ('door', 'NN')]

> pos_tags = [pos for (token,pos) in nltk.pos_tag(text)]
['DT', 'NN', 'VBZ', 'DT', 'NN']

> simple_grammar = nltk.parse_cfg("""
  S -> NP VP
  PP -> P NP
  NP -> Det N | Det N PP
  VP -> V NP | VP PP
  Det -> 'DT'
  N -> 'NN'
  V -> 'VBZ'
  P -> 'PP'
  """)

> parser = nltk.ChartParser(simple_grammar)
> tree = parser.parse(pos_tags)

score 12 · Accepted Answer

我知道这是一年后的事，但我想补充一些想法。

我使用了很多不同的句子，并为我正在从事的项目用词性标记它们。从那里我按照 StompChicken 的建议做，从元组（单词，标签）中提取标签并将这些标签用作“终端”（树的底部节点，因为我们创建了一个完全标记的句子）。

最终，这不符合我在名词短语中标记中心名词的愿望，因为我无法将中心名词“单词”拉入语法，因为语法只有标签。

所以我所做的是使用一组 (word, tag) 元组来创建一个标签字典，所有带有该标签的单词作为该标签的值。然后我将此字典打印到 screen/grammar.cfg（上下文无关语法）文件。

我用来打印它的表单与通过加载语法文件 () 来设置解析器完美配合parser = nltk.load_parser('grammar.cfg')。它生成的其中一行如下所示：

VBG -> "fencing" | "bonging" | "amounting" | "living" ... over 30 more words...

所以现在我的语法将实际单词作为终端并分配相同的标签nltk.tag_pos。

希望这可以帮助其他任何想要自动标记大型语料库并且仍然将实际单词作为语法终端的人。

import nltk
from collections import defaultdict

tag_dict = defaultdict(list)

...
    """ (Looping through sentences) """

        # Tag
        tagged_sent = nltk.pos_tag(tokens)

        # Put tags and words into the dictionary
        for word, tag in tagged_sent:
            if tag not in tag_dict:
                tag_dict[tag].append(word)
            elif word not in tag_dict.get(tag):
                tag_dict[tag].append(word)

# Printing to screen
for tag, words in tag_dict.items():
    print tag, "->",
    first_word = True
    for word in words:
        if first_word:
            print "\"" + word + "\"",
            first_word = False
        else:
            print "| \"" + word + "\"",
    print ''

score 11 · Accepted Answer

解析是一个棘手的问题，很多事情都可能出错！

您需要（至少）三个组件，一个标记器，一个标记器，最后是解析器。

首先，您需要将正在运行的文本标记为标记列表。这可以像在空格周围拆分输入字符串一样简单，但是如果您要解析更一般的文本，您还需要处理数字和标点符号，这很重要。例如，句末句点通常不被视为它所附加的单词的一部分，但标记缩写的句点通常是。

当您拥有输入标记列表时，您可以使用标记器来尝试确定每个单词的 POS，并使用它来消除输入标记序列的歧义。这有两个主要优点：首先，它加快了解析速度，因为我们不再需要考虑由歧义词许可的替代假设，因为 POS 标记器已经这样做了。其次，它改进了未知词的处理，即。语法中不存在的单词，还可以为这些单词分配一个标签（希望是正确的）。以这种方式组合解析器和标记器是司空见惯的。

然后，POS标签将构成语法中的前置终端，前置终端是产生式的左侧，只有终端作为它们的右侧。即在 N -> "house", V -> "jump" 等中。 N 和 V 是前置终结符。具有句法的语法是相当普遍的，双方只有非终端，产生式和词汇产生式，一个非终端连接一个终端。这在大多数情况下都具有语言意义，并且大多数 CFG 解析器都要求语法采用这种形式。但是，可以通过从 RHS 中的任何终端（其中包含非终端）创建“虚拟产品”来以这种方式表示任何 CFG。

如果您想在语法中做出比标注器输出更多（或更少）细粒度的标签区分，则可能需要在 POS 标签和前置终端之间进行某种映射。然后，您可以使用标记器的结果初始化图表，即。跨越每个输入标记的适当类别的被动项目。遗憾的是我不知道 NTLK，但我确信有一种简单的方法可以做到这一点。当图表被播种时，解析可以正常继续，并且可以以常规方式提取任何解析树（也包括单词）。

但是，在大多数实际应用中，您会发现解析器可以返回几种不同的分析，因为自然语言是高度模糊的。我不知道您要解析哪种文本语料库，但如果它类似于自然语言，您可能必须构建某种解析选择模型，这将需要一个树库，一个解析树的集合解析的大小从几百到几千不等，这一切都取决于您的语法和您需要的准确结果。给定这个树库，人们可以自动推断出与其对应的 PCFG。然后，PCFG 可以用作对解析树进行排名的简单模型。

所有这一切都需要你自己做很多工作。您将解析结果用于什么目的？您是否查看过 NTLK 或其他软件包（例如 StanfordParser 或 BerkeleyParser）中的其他资源？

python - 使用 NLTK 将分词器组合成语法和解析器

3 回答 3

Related

Reference