2

关于 stanford tagger,我提供了我自己的标记语料库来训练 stanford tagger 的模型。但是,我意识到我的标注器模型的标注速度比默认的 wsjleft3 标注器模型慢得多。什么可能对此有所贡献?以及如何提高模型的速度?(除了 Penn 树库标签集之外,我还添加了 3 或 4 个自定义标签)

4

1 回答 1

4

虽然添加更多特征(在拱门中)通常会使其速度变慢(因为特征提取是主要的运行时成本之一),但速度的两大决定因素是:

  • 特征中使用的上下文标签数量:left3words 使用前一个和第二个前一个标签 (2),因此相当快,双向使用 4(每边两个),因此非常慢。仅使用 1 个或 0 个上下文标签的标注器再次变得更快。
  • 标记集的一般大小,特别是可应用于未知单词的开放类标记集的大小。(但是添加 3 或 4 应该几乎没有区别——当您有一个包含数百个标签的标签时,这是有问题的。)
于 2010-07-14T18:11:05.013 回答