nlp - 有开源的自学词干分析器吗？

Question

我需要实现某种词干分析器/词形还原器。我有一些不同形式的单词（几千个）。它不是形态词典，只是其中的一小部分。从文件中自动学习词干分析器是个好主意吗？有没有可以使用的开源实现？

score 2 · Accepted Answer

Nuve 是一个用于突厥语的 NLP 库。一旦准备好语言规则和数据，它就可以分析和生成任何突厥语的单词，如果不是任何粘着语言的话。您可以分叉它并为 azeri 准备新的正字法和形态学文件。

https://github.com/hrzafer/nuve

因为我是作者，我很乐意帮助你完成这个过程。

score 2 · Accepted Answer

阿塞拜疆语是一种粘着性语言，类似于土耳其语，这意味着单词经常有一系列后缀（例如，一个后缀表示复数，一个后缀表示宾格）。它还具有元音和谐，这意味着每个后缀都有几个变体，您可以根据根中的元音选择正确的变体。

我会做什么：

识别后缀列表。我会尝试两种无监督的方法（？也许试试Linguistica？），并在谷歌上搜索后缀列表（这些通常只包含一个基本后缀，它会根据元音和谐而变化）。迭代地，您应该到达一些合理的列表。如果怀疑某事是否是后缀，我会把它扔进去。
使用列表从单词中去除后缀。

生成的词干分析器会很吵，但根据您的需要，它可能无关紧要。

score 1 · Accepted Answer

1

你应该看看John Goldsmith 和他的团队（@UChicago）为此目的开发的Linguistica 。

于 2014-09-22T06:22:22.923 回答

score 0 · Accepted Answer

Are you talking about English? Then please see English lemmatizer databases?. Considering the significant amount of exceptions, a machine-learning approach without a large dictionary does not seem promising.

nlp - 有开源的自学词干分析器吗？

4 回答 4

Related

Reference