我的 Cloudsearch 索引目前没有返回任何结果,one-two three
但它确实(正确地)返回了一个结果(one two three
并且在搜索two three
等时也将正确地包含在结果中)
我的理解是,这是因为可搜索的短语被分解为它们的标记(单词),空格和标点符号充当分隔符。所以,one
和two
成为单独的token,但one-two
不是有效token,所以没有找到结果。来自Cloudsearch 文档:
在标记化期间,字段中的文本流使用 Unicode 文本分割算法中定义的分词规则在可检测边界上分成单独的标记。
那个 Unicode 文件在这里。
我希望能够搜索one-two three
并找到相关结果,以及其他一些标点符号,例如/
. 是否可以使用 Cloudsearch 进行配置?