0

我是 Elasticsearch 的新手,我花了几个小时试图解决这个问题,如果你愿意帮助我,请提前感谢。

:)(不太)简短的解释:(到目前为止我所拥有的以及我试图实现的目标):

我创建了一个 CouchDB 数据库 (spain_locales),其中包含 8000 多个西班牙城市和省份的文档。另一方面,我有一个带有 jQ​​uery 自动完成功能的 HTML 表单,并在我输入时显示结果。我从我创建的 PHP(Laravel 服务提供商)连接到 ElasticSearch,并返回 jQuery Autocomplete 的结果。我想这可以通过从客户端直接连接到 ElasticSearch 来实现,但出于安全原因,我现在更喜欢这样。

:( 问题:

我从 ElasticSearch 获得的结果并不完全符合我的预期,我不知道如何解决我所拥有的问题,或者它是否是正确的方法。我不知道 bool 查询是否适合我的需要,或者我是否应该使用其他类型的查询。

  1. 如果我键入的单词与数据库中的单词完全一样,我只会得到结果:

    如果我输入Álava我会获得结果,但不是AlavaÁ口音会有所不同)

  2. 在我输入完整的单词之前,我不会获得结果:

    如果我输入 Albacete 我会得到结果,但不是Albacet

我使用 CouchDB River Plugin for ElasticSearch 将 CouchDB 与 ElasticSearch >> https://github.com/elasticsearch/elasticsearch-river-couchdb同步,并通过以下命令槽终端实现了它:

curl -XPUT 'localhost:9200/_river/spain_locales/_meta' -d '{
    "type" : "couchdb",
    "couchdb" : {
        "host" : "localhost",
        "port" : 5984,
        "db" : "spain_locales",
        "filter" : null
    },
    "index" : {
        "index" : "spain_locales",
        "type" : "spain_locales",
        "bulk_size" : "100",
        "bulk_timeout" : "10ms"
    }
}'

我也尝试过:

curl -XPUT 'localhost:9200/_river/spain_locales/_meta' -d '{
    "type" : "couchdb",
    "couchdb" : {
        "host" : "localhost",
        "port" : 5984,
        "db" : "spain_locales",
        "filter" : null
    },
    "index" : {
        "number_of_shards" : 2,
        "refresh_interval" : "1s",
        "analysis": {
          "analyzer": {
            "folding": {
              "tokenizer": "standard",
              "filter":  [ "lowercase", "asciifolding" ]
            }
          }
        },
        "index" : "spain_locales",
        "type" : "spain_locales",
        "bulk_size" : "100",
        "bulk_timeout" : "10ms"
    }
}'

以上均未返回任何错误并成功创建 _river 同步,但仍存在重音和全词问题。

我还尝试通过终端使用以下命令以某种方式应用所需的过滤器:

curl -XPUT 'localhost:9200/spain_locales/' -d '
{
  "settings": {
    "analysis": {
      "analyzer": {
        "folding": {
          "tokenizer": "standard",
          "filter":  [ "lowercase", "asciifolding" ]
        }
      }
    }
  },
  "uuid":"KwKrBc3uQoG5Ld1nOdc5rQ"
}'

但我收到以下错误:

{"error":"IndexAlreadyExistsException[[spain_locales] already exists]","status":400}

CouchDB 文档示例:

{
   "_id": "1",
   "_rev": "1-087ddbe8593f68f1d7d37a9c3f6de787",
   "Provincia": "Álava",
   "Poblacion": "Alegría-Dulantzi",
   "helper": ""
}

{
   "_id": "10",
   "_rev": "1-ce38dcdabeb3b34d34d2296c6e2fdf24",
   "Provincia": "Álava",
   "Poblacion": "Ayala/Aiara",
   "helper": ""
}

{
   "_id": "100",
   "_rev": "1-72e66601e378ee48519aa93601dc0717",
   "Provincia": "Albacete",
   "Poblacion": "Herrera (La)",
   "helper": "La Herrera"
}

PHP 服务提供者/控制器:

public function searchzones(){

    $q = (Input::has('term')) ? Input::get('term') : 'null';

    $params['index'] = 'spain_locales';
    $params['type']  = 'spain_locales';

    $params['body']['query']['bool']['should'] = array(
        array('match' => array('Poblacion' =>  $q)),
        array('match' => array('Provincia' =>  $q))
    );

    $query = $this->elasticsearch->search($params);

    if ($query['hits']['total'] >= 1){

        $results = $query['hits']['hits'];

        foreach ($results as $zone) {
            
            $databag[] = array( "value"     => $zone['_source']['Poblacion'].', '.$zone['_source']['Provincia'],
                                "state"     => $zone['_source']['Provincia'],
                                "city"      => $zone['_source']['Poblacion'],
            );

        }

    } else {

        $results = ['res' => null];
        $databag[] = array();

    }

    return $databag;

    } // End Search Zones

jQuery(JavaScript):

// Sugest locations when user type in zones 
$(document).ready(function() {
    $('#zones').autocomplete({
            
            source : applink + 'ajax/searchzones',
            select : function(event, ui){
                console.log(ui);
            }
                
    }); // End autocomplete
}); // End Document ready

HTML 表单部分(Twitter Bootstrap):

<div class="form-group">
<div class="input-group input-append dropdown">
<input type="text" class="form-control typeahead" placeholder="City name" name="zones" id="zones">
<div class="input-group-btn" >
<button type="button" class="btn btn-default dropdown-toggle" data-toggle="dropdown"><span class="caret"></span></button>
<ul class="dropdown-menu dropdown-menu-right" id="dropZonesAjax">                           
</ul>
</div>
</div>
<div id="zonesAjax"></div>   
</div>

我找到了以下资源:http ://www.elasticsearch.org/guide/en/elasticsearch/guide/current/asciifolding-token-filter.html但我不知道如何实现/实现它。

非常感谢您的时间和尝试提供帮助!对不起我的英语不好!

4

1 回答 1

0

尝试在索引之前创建映射。然后您可以定义您提到的分析器(折叠)并将其分配给您的字段:

{
  "settings": {
    "analysis": {
      "analyzer": {
        "folding": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "asciifolding"
          ]
        }
      }
    }
  },
  "mappings": {
    "locales": {
      "properties": {
        "Provincia": {
          "type": "string",
          "analyzer": "folding"
        },
        "Poblacion": {
          "type": "string",
          "analyzer": "folding"
        },
        "helper": {
          "type": "string"
        }
      }
    }
  }
}
于 2014-12-12T07:23:59.567 回答