我想做一些基本的希伯来语词干。
我能找到的所有自定义分析器的示例总是合并其他分析器和过滤器,但从不自己进行任何字符串级别的处理。
例如,如果我想创建一个分析器,对于它获取的流中的每个术语,我必须做什么,按照以下规则发出一个或两个术语:如果传入术语以“a”以外的任何其他内容开头,它应该按原样通过。如果传入的术语以“a”开头,则应使用两个术语:原始术语和第二个不带前导“a”且具有较低提升的术语。
因此,如果文档有“help away”,它将返回“help”、“away”和“way^0.8”。
我应该覆盖分析器的哪些方法来执行此操作?(指向类似性质示例的指针将非常有帮助)。
谢谢