我正在使用 Apache solr,我正在尝试使用语音过滤器工厂,我已经尝试了 solr.PhoneticFilterFactory 可用的所有编码器,但它们都不支持印度语言。是否有任何其他可用的过滤器/方法,以便我可以获得印度语言的语音表示,例如印地语、泰米尔语、孟加拉语等
如果不是,那么我们如何修改现有过滤器以支持这些语言。
我正在使用 Apache solr,我正在尝试使用语音过滤器工厂,我已经尝试了 solr.PhoneticFilterFactory 可用的所有编码器,但它们都不支持印度语言。是否有任何其他可用的过滤器/方法,以便我可以获得印度语言的语音表示,例如印地语、泰米尔语、孟加拉语等
如果不是,那么我们如何修改现有过滤器以支持这些语言。
您是否尝试过新的 Beider Morse Filter Factory,它刚刚在 3.6 版中添加并且(唉)还没有很好的文档记录?
https://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.BeiderMorseFilterFactory
它是为中欧和东欧姓氏的语音搜索而开发的,但也许它也适用于其他语言。我个人发现它比 Soundex 或其他旧的类似声音的方法好得多。