1

我需要实现某种词干分析器/词形还原器。我有一些不同形式的单词(几千个)。它不是形态词典,只是其中的一小部分。从文件中自动学习词干分析器是个好主意吗?有没有可以使用的开源实现?

4

4 回答 4

2

Nuve 是一个用于突厥语的 NLP 库。一旦准备好语言规则和数据,它就可以分析和生成任何突厥语的单词,如果不是任何粘着语言的话。您可以分叉它并为 azeri 准备新的正字法和形态学文件。

https://github.com/hrzafer/nuve

因为我是作者,我很乐意帮助你完成这个过程。

于 2014-11-10T12:58:38.603 回答
2

阿塞拜疆语是一种粘着性语言,类似于土耳其语,这意味着单词经常有一系列后缀(例如,一个后缀表示复数,一个后缀表示宾格)。它还具有元音和谐,这意味着每个后缀都有几个变体,您可以根据根中的元音选择正确的变体。

我会做什么:

  • 识别后缀列表。我会尝试两种无监督的方法(?也许试试Linguistica?),并在谷歌上搜索后缀列表(这些通常只包含一个基本后缀,它会根据元音和谐而变化)。迭代地,您应该到达一些合理的列表。如果怀疑某事是否是后缀,我会把它扔进去。
  • 使用列表从单词中去除后缀。

生成的词干分析器会很吵,但根据您的需要,它可能无关紧要。

于 2013-06-29T21:52:55.703 回答
1

你应该看看John Goldsmith 和他的团队(@UChicago)为此目的开发的Linguistica 。

于 2014-09-22T06:22:22.923 回答
0

Are you talking about English? Then please see English lemmatizer databases?. Considering the significant amount of exceptions, a machine-learning approach without a large dictionary does not seem promising.

于 2013-04-09T19:26:03.340 回答