c# - 忽略检查搜索中的特殊字符（标题）

Question

使用Umbraco v6，检查搜索（不是完整的 Lucene 查询）。这是一个拉丁美洲/南美网站。我问过我的同事，他们如何在搜索/URL 中输入标题（字母上的重音符号），他们都说没有，他们只是使用“常规”字符（AZ、az）。

我知道如何在传递给Examine时从字符串中去除特殊字符，但我需要相反的方式，如在 Examine 中删除属性中的特殊字符以匹配查询。我有许多名称中带有标题的“节点”（这是我正在搜索的属性之一）。

我研究过的帖子：

我试过写 luence 查询（或者我认为），但我没有得到任何点击。

// q is my query from QueryString
var searcher = ExamineManager.Instance.SearchProviderCollection["CustomSearchSearcher"];

//var query = searcher.CreateSearchCriteria().Field("nodeName", q).Or().Field("description", q).Compile();
//var searchResults = searcher.Search(query).OrderByDescending(x => x.Score).TakeWhile(x => x.Score > 0.05f);

var searchResults = searcher.Search(Global.RemoveSpecialCharacters(q), true).OrderByDescending(x => x.Score).TakeWhile(x => x.Score > 0.05f);

全球班

    public static string RemoveSpecialCharacters(string str)
    {
        StringBuilder sb = new StringBuilder();
        for (int i = 0; i < str.Length; i++)
        {
            if ((str[i] >= '0' && str[i] <= '9')
                    || (str[i] >= 'A' && str[i] <= 'z' || (str[i] == '.' || str[i] == '_'))
                || str[i] == 'á' || str[i] == 'é' || str[i] == 'í' || str[i] == 'ñ' || str[i] == 'ó' || str[i] == 'ú')
            {
                sb.Append(str[i]);
            }
        }

        return sb.ToString();
    }

如上所述，我需要从 Lucene 中删除特殊字符（标题），而不是传入的查询。

来自：https ://our.umbraco.org/documentation/reference/searching/examine/overview-explanation

我也读过“分析器”，但我以前从未与他们合作过，也不知道要获取/安装/添加到 VS 等。这是更好的方法吗？

score 1 · Accepted Answer

自定义分析器就是答案。

这在 umbraco 论坛上得到了回答：https ://our.umbraco.org/forum/developers/extending-umbraco/16396-Examine-and-accents-for-portuguese-language

制作一个去除所有特殊字符的分析器：

  public class CIAIAnalyser : Analyzer
{
    public override TokenStream TokenStream(string fieldName, System.IO.TextReader reader)
    {
        StandardTokenizer tokenizer = new StandardTokenizer(Lucene.Net.Util.Version.LUCENE_29, reader);

        tokenizer.SetMaxTokenLength(255);
        TokenStream stream = new StandardFilter(tokenizer);
        stream = new LowerCaseFilter(stream);
        return new ASCIIFoldingFilter(stream);

    }

}

然后你对搜索输入做同样的事情。

   public class CleanAccent
{
    public static string RemoveDiacritics(string input)
    {
        // Indicates that a Unicode string is normalized using full canonical decomposition.

        if (String.IsNullOrEmpty(input)) return input;

        string inputInFormD = input.Normalize(NormalizationForm.FormD);
        var sb = new StringBuilder();

        for (int idx = 0; idx < inputInFormD.Length; idx++)
        {
            UnicodeCategory uc = CharUnicodeInfo.GetUnicodeCategory(inputInFormD[idx]);
            if (uc != UnicodeCategory.NonSpacingMark)
            {
                sb.Append(inputInFormD[idx]);
            }
        }

        return (sb.ToString().Normalize(NormalizationForm.FormC));
    }

}

然后在 ExamineSettings.config 中引用分析器。

c# - 忽略检查搜索中的特殊字符（标题）

1 回答 1

Related

Reference