在 ES 拓扑中,我想在 ElasticSearch 中索引 url 并将 (url, [title, content]) 的元组转发到 Hdfs 存储。我发现 Apache-storm 有一个合适的 Hdfs bolt,它看起来像一个简单的实现。我想知道在 ES 爬行拓扑中在哪里寻找这个元组。你能指出哪个螺栓有这些数据吗?
问问题
26 次
1 回答
0
您不仅需要文本内容,还需要元数据,因为这是存储标题的地方。查看JSoupParserBolt在默认流上发出的内容,并将 HDFS 螺栓连接到其输出。
这类似于我们对扩展 HDFS bolt 的WARC 模块所做的事情,除了 WARC bolt 不需要解析步骤中的任何内容,并且可以直接连接到 Fetcher 的输出。
于 2018-06-04T08:30:28.710 回答