4

在我看来,Parsey 在正确标记问题和任何带有“is”的句子方面存在严重问题。


文本:巴拉克奥巴马是夏威夷人吗?

GCloud 代币(正确):

  • 是 - [根] 动词
  • 兵营 - [nn] 名词
  • 奥巴马 - [nsubj] 名词
  • 来自 - [adp] 准备
  • 夏威夷 - [pobj] 名词

Parsey 令牌(错误):

  • 是 - [警察] 动词
  • 兵营 - [nsubj] 名词
  • Obama - [词根] 名词
  • 来自 - [adp] 准备
  • 夏威夷 - [pobj] 名词

Parsey 决定将名词 (!) Obama 设为词根,这将其他一切都搞砸了。


文字:我的名字是菲利普

GCloud 代币(正确):

  • 我的 [poss] 代号
  • 名称 [nsubj] 名词
  • 是 [根] 动词
  • Philipp [attr] 名词

ParseyTokens(不正确):

  • 我的 [poss] 代号
  • 名称 [nsubj] 名词
  • 是 [警察] 动词
  • Philipp [词根] 名词

parsey 再次选择名词作为词根并与 COP 斗争。


任何想法为什么会发生这种情况以及我该如何解决?

谢谢,菲尔

4

3 回答 3

1

关于第一个例子,Parsey 的训练数据似乎很老,甚至没有提到“Barack”这个词。如果你用比尔克林顿替换巴拉克奥巴马,你会得到一个正确的解析。

Input: Is Bill Clinton from Hawaii ? Parse: Is VBZ ROOT +-- Clinton NNP nsubj | +-- Bill NNP nn +-- from IN prep | +-- Hawaii NNP pobj +-- ? . punct

第二个示例是根据 Stanford Dependencies 正确解析的(请参阅http://nlp.stanford.edu/software/dependencies_manual.pdf中的“连接动词的处理” )。

Input: My name is Philip Parse: Philip NNP ROOT +-- name NN nsubj | +-- My PRP$ poss +-- is VBZ cop

于 2016-08-26T21:29:17.847 回答
0

由于它正确地将巴拉克奥巴马标记为 2 个名词,我不认为它对这个名字的不熟悉是问题所在。我认为 Parsey 禁止使用“is”作为词根。

在理论依存语法中,名词永远不是完整句子的根。然而,Parsey 并不遵循理论。它非常喜欢将内容词变成头脑。我认为它已经决定当你说“X is Y”时,句子的开头应该是“X”而不是“is”,因为“is”不是一个信息词。

...除了比尔克林顿的例子,这可能证明我错了!我还没有让 Parsey 在我自己的电脑上工作,所以我不确定。

于 2016-09-08T23:56:52.287 回答
0

我必须限定我的答案:我对 Parsey McParseface 的了解有限。但是,由于没有其他人回答,我希望我可以增加一些价值。

我认为大多数机器学习模型的一个主要问题是缺乏可解释性。这与您的第一个问题有关:“为什么会这样?” 很难说,因为这个工具是建立在“黑盒”模型上的,即神经网络。我要说的是,鉴于对 Parsey 的强烈主张,像“is”这样的常用词一直在愚弄它,这似乎非常令人惊讶。你有可能犯了一些错误吗?没有代码示例很难判断。

我假设你没有犯错,在这种情况下,我认为你可以通过利用你的观察来解决这个问题(或减轻它),“是”这个词似乎让模型偏离了方向。在这种情况下,您可以简单地检查有问题的句子中的单词“is”并使用 GCloud(或其他解析器)。方便的是,一旦你同时使用两者,你​​可以使用 GCloud 作为 Parsey 似乎失败的其他情况的后备,如果你将来发现它们。

至于改进基础模型,如果您足够在意,您可以使用原始论文重新创建它,并可能优化训练以适应您的情况。

于 2016-08-06T03:47:48.647 回答