我想使用 Syntaxnet 来获取推文的 POS 标签(更具体地说,从文本中提取命名实体)。但是,Parsey McParseface 默认区分大小写。由于推文通常不使用大写字母,因此我正在考虑使用无大小写标记器。我在代码中发现了一些关于大写的东西,但我不确定是否以及如何使用它:
让我举个例子更清楚。考虑例句John gave the money to Maria
和john gave the money to maria
(带大小写和不带大小写):
带帽:
gave VBD ROOT
+-- John NNP nsubj
+-- money NN dobj
| +-- the DT det
+-- to IN prep
+-- Maria NNP pobj
没有大写:
gave VBD ROOT
+-- john NNP nsubj
+-- money NN dobj
| +-- the DT det
+-- to TO prep
+-- maria NN pobj
如您所见,Maria 是 NNP,而 maria(没有大写字母)是 NN。在提取命名实体时,将单词标记为 NN 还是 NNP 会有所不同。
有没有办法改善这一点?Syntaxnet 是否有无大小写的 Parsey McParseface?