16

Java-opennlp

我是 opennlp 的新手,我正在尝试分析句子并获得 post 标签和块结果,但我无法理解值的含义。是否有任何表格可以解释帖子标签和块结果值的完整形式含义?

Tokens: [My, name, is, Chris, corrale, and, I, live, in, Philadelphia, USA, .]
Post Tags: [PRP$, NN, VBZ, NNP, NN, CC, PRP, VBP, IN, NNP, NNP, .]
chunk Result: [B-NP, I-NP, B-VP, B-NP, I-NP, O, B-NP, B-VP, B-PP, B-NP, I-NP, O]
4

3 回答 3

14

POS 标签来自Penn Treebank 标签集。组块是名词短语 (NP)、动词短语 (VP) 和介词 (PP)。“B-..”标志着这样一个短语的开始,“I-..”表示类似于“inner”的意思,即这个短语在这里继续(参见OpenNLP 文档)。

于 2013-02-25T17:19:20.607 回答
11

S -> 简单陈述性从句,即不由(可能为空的)从属连词或 wh 词引入且不表现主谓倒置的子句。

SBAR -> 由(可能为空的)从属连词引入的子句。

SBARQ -> 由 wh 词或 wh 短语引入的直接问题。间接问题和关系从句应括为 SBAR,而不是 SBARQ。

SINV -> 倒置陈述句,即主语跟在时态动词或情态之后的句子。

SQ -> 在 SBARQ 中的 wh 短语之后,倒置的是/否问题,或 wh 问题的主要子句。

ADJP -> 形容词短语。

ADVP -> 副词短语。

CONJP -> 连词。

碎片 -> 片段。

INTJ -> 感叹词。大致对应于词性标签 UH。

LST -> 列表标记。包括周围的标点符号。

NAC->不是成分;用于显示 NP 中某些名词前修饰语的范围。

NP -> 名词短语。

NX -> 在某些复杂的 NP 中用于标记 NP 的头部。非常粗略地对应于 N-bar

PP -> 介词短语。

PRN -> 括号。

PRT -> 粒子。应标记为 RP 的单词的类别。

QP -> 量词短语(即复杂的度量/数量短语);在 NP 中使用。

RRC -> 简化的相对条款。

UCP -> 与协调短语不同。

VP -> 动词短语。

WHADJP -> Wh 形容词短语。包含 wh 副词的形容词短语,如 how hot。

WHAVP -> Wh 副词短语。引入一个带有 NP 间隔的子句。可以为空(包含 0 补语)或词法,包含 wh 副词,例如 how 或 why。

WHNP -> Wh 名词短语。引入一个带有 NP 间隔的子句。可能是空的(包含 0 补语)或词法的,包含一些 wh 词,例如谁,哪本书,谁的女儿,一个都没有,或者有多少豹子。

WHPP -> Wh 介词短语。介词短语包含一个 wh 名词短语(例如 of which 或 by who authority),它要么引入 PP 间隙,要么被 WHNP 包含。

X -> 未知、不确定或不可括号。X 常用于括号中的拼写错误和括号中的...结构。

信用: http: //mail-archives.apache.org/mod_mbox/opennlp-users/201402.mbox/%3CCACQuOSXOeyw2O-AZtW3m=iABo1=3cpZOdPiWFXoNwN-SVWo4gQ@mail.gmail.com%3E

于 2014-12-18T13:49:25.123 回答
2

请参阅POSTag 列表以获取标签详细信息。

像“ B-NP ”这样的块标签由两个或三个部分组成:
第一部分

B - marks the beginning of a chunk
I - marks the continuation of a chunk
E - marks the end of a chunk

作为一个chunk,它可能只有一个词长(如上例中的“She”),它可以同时是一个chunk的开头和结尾。

第二部分

NP - noun chunk
VP - verb chunk

如需更多参考,您可以参考 OpenNLP 文档

于 2015-02-20T11:01:40.740 回答