1

我正在使用 Hunspell 为 SOLR 实例提取词干。在大多数情况下,它似乎运作良好。

我正在使用 OpenOffice dic/aff 文件。

但是,有一些值得注意的词例外,我希望能够将这些作为词干的候选者删除。

一个很好的例子是“skier”,它源于“sky”,原因如下:

in the .dic file
sky/MDRSGZ

relevant rule in the .aff file
SFX R   y     ier        [^aeiou]y

有什么方法可以表明这一点,skier并且只skier应该不理会吗?

4

2 回答 2

0

是的,这是很常见的事情,只需删除“R”

sky/MDSGZ

但是您可能希望在另一行“skier”和它的任何其他版本上重新添加。

skier/MS

我不得不对此文件进行大量更改,现在真的希望有更好的选择。例如

  • 黄油->屁股
  • 角落 -> 玉米
  • 复活节 -> 东

然后是另一个非常令人困惑的,

  • 风==伤口

在我们修复它之前在我的网站上,如果您搜索“风力”中的风,您最终会发现一堆瘀伤和流血的伤口。因为“我给时钟上弦”中的“伤口”源于风。

我们还决定删除所有 RE 前缀。因为像

  • 非凡->标记
  • 删除 -> 移动
  • 重置->设置
  • 恢复 -> 存储

因此,如果您知道更适合此的更好的词典,请告诉我。(我认为主要问题是这本词典更适合拼写检查,而不是词干)

我愿意为一个真正的词干词典开始和/或贡献一个 git 项目,以替换这个拼写词典,供所有使用它的人使用。

于 2015-03-02T18:38:28.797 回答
0

你试过自由行吗?它是开源的。

演示页面在这里: http: //nlp.lsi.upc.edu/freeling/demo/demo.php

当我选择英语时,pos tagging 我得到以下结果:

you wound the clock?

you wind the clock? 
PRP VBD   DT  NN  ?

还有skier、wind power都得到名词词根。它是一个很棒的词干分析器和分析器。

不确定许可。下载页面: http ://devel.cpl.upc.edu/freeling/downloads?order=time&desc=1

于 2015-05-28T18:10:59.820 回答