nlp - 词性标注后词元化会产生意想不到的结果

Question

我正在使用带有 nltk pos_tag 函数和 WordNetLemmatizer 的 python3.5。我的目标是展平我们数据库中的单词以对文本进行分类。我正在尝试使用 lemmatizer 进行测试，但在相同的令牌上使用 POS 标记器时遇到了奇怪的行为。在下面的示例中，我有一个包含三个字符串的列表，当在 POS 标记器中运行它们时，每个其他元素都作为名词（NN）返回，其余元素作为动词（VBG）返回。

这会影响词形还原。输出看起来像这样：

pos Of token: v
lemmatized token: skydive
pos Of token: n
lemmatized token: skydiving
pos Of token: v
lemmatized token: skydive

如果我将更多元素添加到相同字符串的列表中，则此相同模式将继续。我正在使用的完整代码是这样的：

tokens = ['skydiving', 'skydiving', 'skydiving']
lmtzr=WordNetLemmatizer()

def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return 'a'
    elif treebank_tag.startswith('V'):
        return 'v'
    elif treebank_tag.startswith('N'):
        return 'n'
    elif treebank_tag.startswith('R'):
        return 'r'
    elif treebank_tag.startswith('S'):
        return ''
    else:
        return ''

numTokens = (len(tokens))
for i in range(0,numTokens):
    tokens[i]=tokens[i].replace(" ","")

noSpaceTokens = pos_tag(tokens)

for token in noSpaceTokens:
    tokenStr = str(token[1])
    noWhiteSpace = token[0].replace(" ", "")
    preLemmed = get_wordnet_pos(tokenStr)
    print("pos Of token: " + preLemmed)
    lemmed = lmtzr.lemmatize(noWhiteSpace,preLemmed)
    print("lemmatized token: " + lemmed)

score 3 · Accepted Answer

简而言之：

当 POS 标记时，您需要一个上下文句子而不是不合语法的标记列表。

例如，要对语法句子进行词形还原，您可以查看https://github.com/alvations/pywsd/blob/master/pywsd/utils.py#L100

当从上下文语句中进行词元化时，获得正确词元的唯一方法是手动指定 pos 标签。

例如来自https://github.com/alvations/pywsd/blob/master/pywsd/utils.py#L66，我们必须pos为 lemmatize 函数指定参数。
否则它将始终假设nPOS，另请参见WordNetLemmatizer 不返回正确的引理，除非 POS 是显式的 - Python NLTK

长篇：

词性标注器通常适用于整个句子，而不是单个单词。当您尝试在上下文中标记单个单词时，您得到的是最常见的标记。

为了验证在标记单个单词（即只有 1 个单词的句子）时，它总是给出相同的标记：

>>> from nltk.stem import WordNetLemmatizer
>>> from nltk import pos_tag
>>> ptb2wn_pos = {'J':'a', 'V':'v', 'N':'n', 'R':'r'}
>>> sent = ['skydive']
>>> most_frequent_tag = pos_tag(sent)[0][1]
>>> most_frequent_tag
'JJ'
>>> most_frequent_tag = ptb2wn_pos[most_frequent_tag[0]]
>>> most_frequent_tag
'a'
>>> for _ in range(1000): assert ptb2wn_pos[pos_tag(sent)[0][1][0]] == most_frequent_tag;
... 
>>>

现在，如果句子只有 1 个单词，则默认情况下标签始终为“a”，因此WordNetLemmatizer将始终返回skydive：

>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize(sent[0], pos=most_frequent_tag)
'skydive'

让我们在句子的上下文中查看单词的引理：

>>> sent2 = 'They skydrive from the tower yesterday'
>>> pos_tag(sent2.split())
[('They', 'PRP'), ('skydrive', 'VBP'), ('from', 'IN'), ('the', 'DT'), ('tower', 'NN'), ('yesterday', 'NN')]
>>> pos_tag(sent2.split())[1]
('skydrive', 'VBP')
>>> pos_tag(sent2.split())[1][1]
'VBP'
>>> ptb2wn_pos[pos_tag(sent2.split())[1][1][0]]
'v'

因此，当您这样做时，输入标记列表的上下文很重要pos_tag。

在您的示例中，您有一个列表['skydiving', 'skydiving', 'skydiving']，表示您要标记的句子是一个不合语法的句子：

跳伞跳伞跳伞

并且该pos_tag函数认为是一个正常的句子，因此给出了标签：

>>> sent3 = 'skydiving skydiving skydiving'.split()
>>> pos_tag(sent3)
[('skydiving', 'VBG'), ('skydiving', 'NN'), ('skydiving', 'VBG')]

在这种情况下，第一个词是动词，第二个词是名词，第三个词是动词，这将返回以下引理（您不需要）：

>>> wnl.lemmatize('skydiving', 'v')
'skydive'
>>> wnl.lemmatize('skydiving', 'n')
'skydiving'
>>> wnl.lemmatize('skydiving', 'v')
'skydive'

因此，如果我们在您的标记列表中有一个有效的语法句子，输出可能看起来非常不同

>>> sent3 = 'The skydiving sport is an exercise that promotes diving from the sky , ergo when you are skydiving , you feel like you are descending to earth .'
>>> pos_tag(sent3.split())
[('The', 'DT'), ('skydiving', 'NN'), ('sport', 'NN'), ('is', 'VBZ'), ('an', 'DT'), ('exercise', 'NN'), ('that', 'IN'), ('promotes', 'NNS'), ('diving', 'VBG'), ('from', 'IN'), ('the', 'DT'), ('sky', 'NN'), (',', ','), ('ergo', 'RB'), ('when', 'WRB'), ('you', 'PRP'), ('are', 'VBP'), ('skydiving', 'VBG'), (',', ','), ('you', 'PRP'), ('feel', 'VBP'), ('like', 'IN'), ('you', 'PRP'), ('are', 'VBP'), ('descending', 'VBG'), ('to', 'TO'), ('earth', 'JJ'), ('.', '.')]

nlp - 词性标注后词元化会产生意想不到的结果

1 回答 1

Related

Reference