3

我想将 Storm 中的文档索引到 Elasticsearch 中,但我无法将任何文档索引到 Elasticsearch 中。

在我的拓扑中,我有一个 KafkaSpout,它向一个 EsBolt 发出这样的 json {“tweetId”:1,“text”:“hello”},它是来自 elasticsearch-hadoop 库的本机 bolt,它将 Storm 元组写入 Elasticsearch(doc在这里:https ://www.elastic.co/guide/en/elasticsearch/hadoop/current/storm.html )。这些是我的 EsBolt 的配置:

Map conf = new HashMap();
conf.put("es.nodes","127.0.0.1");
conf.put("es.port","9200");
conf.put("es.resource","twitter/tweet");
conf.put("es.index.auto.create","no");
conf.put("es.input.json", "true");
conf.put("es.mapping.id", "tweetId");
EsBolt elasticsearchBolt = new EsBolt("twitter/tweet", conf);

前两个配置默认具有这些值,但我选择显式设置它们。我也试过没有它们,得到相同的结果。

这就是我构建拓扑的方式:

TopologyBuilder builder = new TopologyBuilder();

builder.setSpout(TWEETS_DATA_KAFKA_SPOUT_ID, kafkaSpout, kafkaSpoutParallelism)
        .setNumTasks(kafkaSpoutNumberOfTasks);


builder.setBolt(ELASTICSEARCH_BOLT_ID, elasticsearchBolt, elasticsearchBoltParallelism)
        .setNumTasks(elasticsearchBoltNumberOfTasks)
        .shuffleGrouping(TWEETS_DATA_KAFKA_SPOUT_ID);

return builder.createTopology();

在本地运行拓扑之前,我在 Elasticsearch 中创建了“twitter”索引,并为该索引创建了映射“tweet”。如果我检索我新创建的类型的映射(curl -XGET ' http://localhost:9200/twitter/_mapping/tweet '),这就是我得到的:

{
   "twitter": {
      "mappings": {
         "tweet": {
            "properties": {
               "text": {
                  "type": "string"
               },
               "tweetId": {
                  "type": "string"
               }
            }
         }
      }
   }
}

我在本地运行拓扑,这是我在处理元组时在控制台中得到的:

Processing received message FOR 6 TUPLE: source: tweets-data-kafka-spout:9, stream: default, id: {-8010897758788654352=-6240339405307942979}, [{"tweetId":"1","text":"hello"}]

Emitting: elasticsearch-bolt __ack_ack [-8010897758788654352 -6240339405307942979]

TRANSFERING tuple TASK: 2 TUPLE: source: elasticsearch-bolt:6, stream: __ack_ack, id: {}, [-8010897758788654352 -6240339405307942979]

BOLT ack TASK: 6 TIME:  TUPLE: source: tweets-data-kafka-spout:9, stream: default, id: {-8010897758788654352=-6240339405307942979}, [{"tweetId":"1","text":"hello"}]

Execute done TUPLE source: tweets-data-kafka-spout:9, stream: default, id: {-8010897758788654352=-6240339405307942979}, [{"tweetId":"1","text":"hello"}] TASK: 6 DELTA:

所以元组似乎被处理了。但是我没有在 Elasticsearch 中索引任何文档。

我想我在为 EsBolt 设置配置时做错了什么,可能缺少配置或其他东西。

4

2 回答 2

1

只有达到es.storm.bolt.flush.entries.size指定的刷新大小后,文档才会被索引

或者,您可以设置触发队列刷新的 TICK 频率。

config.put(Config.TOPOLOGY_TICK_TUPLE_FREQ_SECS, 5);

默认情况下,根据es.storm.bolt.tick.tuple.flush参数,es-hadoop 在滴答时刷新。

于 2016-09-09T18:51:20.803 回答
0

我也遇到了同样的问题,但是当我查找 es-Hadoop 文档时,我发现因为我错过了设置触发队列刷新的频率。然后我在我的存储拓扑中添加了一个配置(es.storm.bolt. flush.entries.size ),没关系。但是当我们为 Config.TOPOLOGY_TICK_TUPLE_FREQ_SECS 设置值时,它会在螺栓执行函数中抛出异常:java.lang.RuntimeException:java.lang.NullPointerException。然后我们使用调试模式测试我的拓扑,我发现bolt执行中的输入元组不包含任何条目,但是这个空元组被触发了。这就是我感到困惑的地方。不要根据设置时间发出元组,即使在我们设置 Config.TOPOLOGY_TICK_TUPLE_FREQ_SECS 后这个元组是空的。我认为这是一个错误。 在此处输入图像描述 在此处输入图像描述

您可以看到更多信息:https ://www.elastic.co/guide/en/elasticsearch/hadoop/current/storm.html

于 2018-08-20T08:38:58.887 回答