1

在 ES 拓扑中,我想在 ElasticSearch 中索引 url 并将 (url, [title, content]) 的元组转发到 Hdfs 存储。我发现 Apache-storm 有一个合适的 Hdfs bolt,它看起来像一个简单的实现。我想知道在 ES 爬行拓扑中在哪里寻找这个元组。你能指出哪个螺栓有这些数据吗?

4

1 回答 1

0

您不仅需要文本内容,还需要元数据,因为这是存储标题的地方。查看JSoupParserBolt在默认流上发出的内容,并将 HDFS 螺栓连接到其输出。

这类似于我们对扩展 HDFS bolt 的WARC 模块所做的事情,除了 WARC bolt 不需要解析步骤中的任何内容,并且可以直接连接到 Fetcher 的输出。

于 2018-06-04T08:30:28.710 回答