nlp - 斯坦福标记器 - 标记速度

Question

关于 stanford tagger，我提供了我自己的标记语料库来训练 stanford tagger 的模型。但是，我意识到我的标注器模型的标注速度比默认的 wsjleft3 标注器模型慢得多。什么可能对此有所贡献？以及如何提高模型的速度？（除了 Penn 树库标签集之外，我还添加了 3 或 4 个自定义标签）

score 4 · Accepted Answer

虽然添加更多特征（在拱门中）通常会使其速度变慢（因为特征提取是主要的运行时成本之一），但速度的两大决定因素是：

特征中使用的上下文标签数量：left3words 使用前一个和第二个前一个标签 (2)，因此相当快，双向使用 4（每边两个），因此非常慢。仅使用 1 个或 0 个上下文标签的标注器再次变得更快。
标记集的一般大小，特别是可应用于未知单词的开放类标记集的大小。（但是添加 3 或 4 应该几乎没有区别——当您有一个包含数百个标签的标签时，这是有问题的。）

nlp - 斯坦福标记器 - 标记速度

1 回答 1

Related

Reference