我有一个多语言数据集和一个标准分析器,可以很好地处理这个数据集的标记。唯一不好的部分是它删除了@、#、: 等特殊字符。有什么方法可以使用标准标记器并且仍然能够搜索特殊字符?
我已经研究了组合分析器插件,它没有像我希望的那样工作。显然,分析器的组合不像令牌过滤器那样在链中工作。他们独立工作,这对我没有用。我还研究了字符映射过滤器,以便在对其进行标记之前处理数据,但它不像单词分隔符标记过滤器那样工作,我们可以指定“type_table”将特殊字符转换为 ALPHANUM。它只是将一个词映射到另一个词。结果,我将无法搜索特殊字符。另外,我研究了模式分析器,它适用于特殊字符,但不推荐用于多语言数据集。
谁能指出我正确的方向来解决这个问题?提前致谢!