52

我目前正在我的大学学习自然语言处理课程,但仍然对一些基本概念感到困惑。我从《统计自然语言处理基础》一书中得到了 POS 标记的定义:

标记是用适当的词性标记(或标记)句子中的每个单词的任务。我们决定每个单词是名词、动词、形容词还是其他。

但是我在书中找不到浅解析的定义,因为它也将浅解析描述为 POS 标记的实用程序之一。于是我开始在网上搜索,并没有发现浅层解析的直接解释,而是在维基百科中:

浅层解析(也称为分块,“轻解析”)是对一个句子的分析,它识别成分(名词组、动词、动词组等),但没有指定它们的内部结构,也没有指定它们在主句中的作用。

坦率地说,我看不出有什么区别,但这可能是因为我的英语或只是我不理解简单的基本概念。谁能解释一下浅解析和POS标记之间的区别?浅解析通常也称为浅语义解析吗?

之前谢谢。

4

5 回答 5

63

POS 标记会给输入句子中的每个单词一个 POS 标记。

解析句子(例如使用 stanford pcfg)会将句子转换为一棵树,其叶子将包含 POS 标签(对应于句子中的单词),但树的其余部分会告诉您这些单词是如何连接的一起构成一个整体的句子。例如,一个形容词和一个名词可能组合成一个“名词短语”,它可能与另一个形容词组合形成另一个名词短语(例如 quick brown fox)(组合的确切方式取决于所讨论的解析器)。您可以在http://nlp.stanford.edu:8080/parser/index.jsp
看到解析器输出的样子

浅解析器或“分块器”介于这两者之间。一个普通的 POS 标记器非常快,但不能为您提供足够的信息,而成熟的解析器很慢并且给您太多信息。一个词性标注器可以被认为是一个解析器,它只返回解析树的最底层给你。分块器可能被认为是一个解析器,它向您返回解析树的其他层。有时你只需要知道一堆词一起形成一个名词短语,但不关心这些词中树的子结构(即哪些词是形容词、限定词、名词等,它们如何组合) . 在这种情况下,您可以使用分块器来准确获取您需要的信息,而不是浪费时间为句子生成完整的解析树。

于 2012-01-25T15:44:31.663 回答
43

词性标注是一个从文本中决定每个标记的类型的过程,例如名词、动词、限定词等。标记可以是单词或标点符号。
同时,浅解析或分块是将文本划分为句法相关组的过程。

位置标记输出

我的/PRP$ 狗/NN 喜欢/VBZ 他的/PRP$ 食物/NN ./.

分块输出

[NP 我的狗] [VP 喜欢] [NP 他的食物]

于 2012-01-26T01:04:57.123 回答
2

约束语法框架是说明性的。在其最简单、最粗暴的形式中,它采用带有 POS 标记的文本作为输入,并添加了您可以称为部分子句标记的内容。例如,对于一个形容词,它可以添加@NN>以表明它是一个 NP 的一部分,其中心词在右边。

于 2012-01-25T14:55:19.543 回答
2

POS_tagger中,我们使用诸如{名词、动词、adj、adv、prob...}之类的“标签集”来标记单词, 而浅层解析器尝试定义诸如名称实体之类的子组件和句子中的短语,例如“我现在(在(我的大学)参加自然(语言处理课程))并且(仍然对一些基本概念感到困惑。)”

于 2012-01-28T07:15:59.583 回答
1

D. Jurafsky 和 ​​JH Martin 在他们的书中说,浅解析(partial parse)是一种不会从句子中提取所有可能信息的解析,而只是在特定的案例信息中提取有价值的信息。

分块只是浅层解析的一种方法。如前所述,它仅提取有关基本非递归短语(例如动词短语或名词短语)的信息。

例如,其他方法会生成扁平解析树。这些树可能包含有关词性标签的信息,但会推迟可能需要语义或上下文因素的决策,例如 PP 附件、协调歧义和名义复合分析。

因此,浅解析是产生部分解析树的解析。分块是这种解析的一个例子。

于 2017-02-24T07:12:46.897 回答