8

我了解词性标记的隐含价值,并且已经看到有关其在解析、文本到语音转换等方面的使用的提及。

你能告诉我 PoS 标记器的输出是如何形成的吗?另外,您能否解释一下 NLP 系统的其他任务/部分如何使用这种输出?

4

2 回答 2

12

PoS 标记的一个目的是消除同音异义词的歧义。例如,以这句话为例:

我钓一条鱼

法语中的同一句话是Je pêche un poisson。如果没有标记,fish在两种情况下都会以相同的方式翻译,这会导致错误的转导。然而,在 PoS 标记之后,句子将是

I_PRON fish_VERB a_DET fish_NOUN

从计算机的角度来看,这两个词现在是不同的。这样,它们可以更有效地处理(在我们的示例中,fish_VERB 将被翻译为pêche ,fish_NOUN 将被翻译为poisson)。

于 2014-06-02T10:01:58.477 回答
2

Basically, the goal of a POS tagger is to assign linguistic (mostly grammatical) information to sub-sentential units. Such units are called tokens and, most of the time, correspond to words and symbols (e.g. punctuation).

Considering the format of the output, it doesn't really matter as long as you get a sequence of token/tag pairs. Some POS taggers allow you to specify some specific output format, others use XML or CSV/TSV, and so on.

于 2014-06-02T12:11:24.130 回答