0

我们需要让所有这些术语相互匹配并且遇到困难

骨科, 骨科, 骨科, 骨科

目前,我们正在使用形态 stem_en 处理大多数其他复数形式

这是我们当前对该组的词形条目(这对是反向复制的,否则它只能以一种方式工作)

orthopaedic > orthopedic
orthopedic > orthopaedic
orthopedics > orthopaedics
orthopaedics > orthopedics

然而,“骨科”与“骨科”不匹配,我们不能添加另一个条目“骨科>骨科”,因为“骨科”已经存在并且在索引时会抛出错误。

任何建议将不胜感激

4

1 回答 1

0

该对被反向复制,否则它只能以一种方式工作

这是个坏主意!两种方式都将导致问题(就像您实际上已经发现的那样!),您将一个更改为另一个,因此它们将无法正确匹配!

你只需要一个方向。Sphinx 获取左边的词,并将右边的词实际存储在索引中。所以寻找左和右变得可以互换。如果你交换单词,那么它们就没有机会匹配。

复杂性出现是因为 wordforms 执行“词干异常” - 即 wordforms 中的一个词没有词干,所以这意味着许多词不会匹配。所以你需要

  1. 在单词形式列表上手动执行词干提取,并且
  2. 列出你的 wordforms 文件中的所有变体, -相同的常用词

使用上面的示例,将类似于

orthopaedic > orthopedic 
orthopedic > orthopedic 
orthopedics > orthopedic 
orthopaedics > orthopedic 

如果单词 did stem 将不得不这样做,例如

bridge > bridg
bridges > bridg
bridging > bridg

ETC

它极大地膨胀了你的 wordforms 文件,但它可以自动化。

于 2013-01-31T12:11:48.773 回答