0

我正在基于 GuitarParty.com 上的歌曲数据库实现全文搜索。数据由多种语言的歌词组成,这本身不是问题。

但是,当使用snippeted_fields 返回搜索结果时,单词中的所有重音字符(例如ÚúÉéÍí)都将使用它们的通用非重音版本UuEeIi 返回。

这就是我形成查询的方式:

    query = search.Query( 
        query_string=qs, 
        options=search.QueryOptions(
            sort_options=search.SortOptions(
                #match_scorer=search.MatchScorer(),
                match_scorer=search.RescoringMatchScorer(),
                expressions=[
                    search.SortExpression(expression='_score + importance * 0.03', default_value=0)
                    #search.SortExpression(expression='_score', default_value=0)
                ],
                limit=1000,
            ),
            cursor=cursor, 
            returned_fields=['title','atomtitle','item', 'image'],
            snippeted_fields=['title','atomtitle', 'body','item'],
        )
    )

我很确定这不是编码问题,因为如果我直接拉出我的文档字段(就像我对标题所做的那样),一切看起来都是正确的。只有片段的 exoresions 显示不正确。

为了更好地了解我所指的内容,您可以在这里试一试我的测试引擎:http: //gp-search.appspot.com/并搜索冰岛语。例句:Vísur vatnsenda Rósu

这将返回带有此代码段的文档:

奥贡最小和奥贡þin。O þa fogru steina。Mitt er þitt og þitt er mitt, þu veist hvað 例如 meina。Langt er siðan sa eg hann sannlega friður var hann。

正确拼写的片段应该是:

Augun mín og augun þín。Ó þá fögru steina。Mitt er þitt og þitt er mitt, þú veist hvað 例如 meina。Langt er síðan sá ég hann sannlega friður var hann。

我最好从文档数据中生成自己的片段,还是我可以做些什么来提取单词中带有重音字符的片段?

4

1 回答 1

1

您输入的数据会被标准化,因此您在搜索时不必担心重音或丢失重音。

于 2013-10-13T21:18:02.580 回答