6

我想解析支持 hunspell 格式affdic文件的开放式办公室。

英文affdic文件可以从这里下载,例如:http ://extensions.openoffice.org/en/project/english-dictionaries-apache-openoffice

我想扫描给定文件的每一行并使用提供的文件.dic生成每一行的每个可能的单词.aff

我怎样才能做到这一点?

我已经安装了 NHunspell 框架,但它没有那个功能:https ://www.nuget.org/packages/NHunspell/

例如对于英语让我们考虑

make/UAGS

制作可以make, made, makes, making

现在我需要解析器给我所有这些组合。我怎样才能获得它们?很Ty

所以基本上我想扫描字典的每一行并从该行的单词中生成所有可能的单词,我不知道我该怎么做

我也可以编写自己的解析器,但在我看来规则非常复杂,并且没有关于此的详细和简单的文档

这里基本上是我想要的。图像解释得很清楚

给予analyze/ADSG,归档en.dicen.aff获得 以下 所有 词

analyze, analyzes, analyzing, analyzed, reanalyze, reanalyzes, reanalyzing, reanalyzed

在此处输入图像描述

4

1 回答 1

6

如果你想要整个数据库,你可以执行unmunch

unmunch dictionary.dic dictionary.aff

请注意,当前在 hunspell 中的 unmunch 实现有最大单词数、affs 和生成单词长度的限制。因此,如果目标语言超出了 unmunch 的限制,unmunch 可能会失败。

如果您只想要可以从条目生成的可能单词列表,您可以使用wordforms

wordforms dictionary.aff dictionary.dic word
于 2020-02-20T12:41:34.857 回答