我有一个“疯狂的库”场景,我想
a)确定句子中每个(或大多数)单词的词性
b)让用户选择这些单词的替代项 - 或用等效单词计算替换它们
我查看了斯坦福解析器,但它有点慢......有什么建议吗?
我有一个“疯狂的库”场景,我想
a)确定句子中每个(或大多数)单词的词性
b)让用户选择这些单词的替代项 - 或用等效单词计算替换它们
我查看了斯坦福解析器,但它有点慢......有什么建议吗?
使用 POS 标记器
如果您只是使用词性 (POS) 标签而不是解析树,那么您实际上不需要使用解析器。相反,您可以只使用独立的 POS 标记器。
词性标注比短语结构解析快得多。在 Xeon E5520 上,Stanford 词性标注器可以在 3 秒内标注 1700 个句子,而使用Stanford Parser解析相同的数据大约需要 10 分钟(Cer et al. 2010)。
这里有一个相当全面的其他词性标注器列表。
对于工具包方法,有 NLTK 工具包。它在 Python 中,所以同类速度可能不是您想要的;但是作为一个用于教学的工具包,有很多不同的方法可以实现。IE。即使底层语言可能不是最快的,实现快速解析器/标记器也可能很容易。