1

我想使用 Syntaxnet 来获取推文的 POS 标签(更具体地说,从文本中提取命名实体)。但是,Parsey McParseface 默认区分大小写。由于推文通常不使用大写字母,因此我正在考虑使用无大小写标记器。我在代码中发现了一些关于大写的东西,但我不确定是否以及如何使用它:

https://github.com/dsindex/syntaxnet/blob/15831789a706cbc482efeeec635a8f0315d0b3fb/English/context.pbtxt

让我举个例子更清楚。考虑例句John gave the money to Mariajohn gave the money to maria(带大小写和不带大小写):

带帽:

gave VBD ROOT
 +-- John NNP nsubj
 +-- money NN dobj
 |   +-- the DT det
 +-- to IN prep
     +-- Maria NNP pobj

没有大写:

gave VBD ROOT
 +-- john NNP nsubj
 +-- money NN dobj
 |   +-- the DT det
 +-- to TO prep
     +-- maria NN pobj

如您所见,Maria 是 NNP,而 maria(没有大写字母)是 NN。在提取命名实体时,将单词标记为 NN 还是 NNP 会有所不同。

有没有办法改善这一点?Syntaxnet 是否有无大小写的 Parsey McParseface?

4

0 回答 0