google-app-engine - 这是 GAE 搜索 API 中的错误吗？

Question

我正在基于 GuitarParty.com 上的歌曲数据库实现全文搜索。数据由多种语言的歌词组成，这本身不是问题。

但是，当使用snippeted_fields 返回搜索结果时，单词中的所有重音字符（例如ÚúÉéÍí）都将使用它们的通用非重音版本UuEeIi 返回。

这就是我形成查询的方式：

    query = search.Query( 
        query_string=qs, 
        options=search.QueryOptions(
            sort_options=search.SortOptions(
                #match_scorer=search.MatchScorer(),
                match_scorer=search.RescoringMatchScorer(),
                expressions=[
                    search.SortExpression(expression='_score + importance * 0.03', default_value=0)
                    #search.SortExpression(expression='_score', default_value=0)
                ],
                limit=1000,
            ),
            cursor=cursor, 
            returned_fields=['title','atomtitle','item', 'image'],
            snippeted_fields=['title','atomtitle', 'body','item'],
        )
    )

我很确定这不是编码问题，因为如果我直接拉出我的文档字段（就像我对标题所做的那样），一切看起来都是正确的。只有片段的 exoresions 显示不正确。

为了更好地了解我所指的内容，您可以在这里试一试我的测试引擎：http: //gp-search.appspot.com/并搜索冰岛语。例句：Vísur vatnsenda Rósu

这将返回带有此代码段的文档：

奥贡最小和奥贡þin。O þa fogru steina。Mitt er þitt og þitt er mitt, þu veist hvað 例如 meina。Langt er siðan sa eg hann sannlega friður var hann。

正确拼写的片段应该是：

Augun mín og augun þín。Ó þá fögru steina。Mitt er þitt og þitt er mitt, þú veist hvað 例如 meina。Langt er síðan sá ég hann sannlega friður var hann。

我最好从文档数据中生成自己的片段，还是我可以做些什么来提取单词中带有重音字符的片段？

score 1 · Accepted Answer

1

您输入的数据会被标准化，因此您在搜索时不必担心重音或丢失重音。

于 2013-10-13T21:18:02.580 回答

google-app-engine - 这是 GAE 搜索 API 中的错误吗？

1 回答 1

Related

Reference