parsing - 有谁知道一个好的快速和肮脏的文本/语法解析器？

Question

我有一个“疯狂的库”场景，我想

a）确定句子中每个（或大多数）单词的词性
b）让用户选择这些单词的替代项 - 或用等效单词计算替换它们

我查看了斯坦福解析器，但它有点慢......有什么建议吗？

score 3 · Accepted Answer

使用 POS 标记器

如果您只是使用词性 (POS) 标签而不是解析树，那么您实际上不需要使用解析器。相反，您可以只使用独立的 POS 标记器。

词性标注比短语结构解析快得多。在 Xeon E5520 上，Stanford 词性标注器可以在 3 秒内标注 1700 个句子，而使用 Stanford Parser解析相同的数据大约需要 10 分钟（Cer et al. 2010）。

这里有一个相当全面的其他词性标注器列表。

score 0 · Accepted Answer

对于工具包方法，有 NLTK 工具包。它在 Python 中，所以同类速度可能不是您想要的；但是作为一个用于教学的工具包，有很多不同的方法可以实现。IE。即使底层语言可能不是最快的，实现快速解析器/标记器也可能很容易。

2 回答 2