1

我正在使用strom-crawler-elastic。我可以看到这些获取的 url 和状态。ES_IndexInit.sh 文件中的配置更改仅提供 url、标题、主机、文本。但是我可以用 html 标签存储整个 html 内容吗?

4

1 回答 1

1

ES IndexerBolt 从 ParseFilter 获取页面内容,但不对其进行任何操作。一种选择是修改代码,以便从传入的元组中提取内容字段并为其编制索引。

或者,您可以实现一个自定义 ParseFilter,它将页面内容复制到元数据键值中,并通过配置文件中的indexer.md.mapping将该字段配置为索引。

无论哪种方式,您都需要修改 ES_indexInit.sh 以便 ES 中的字段被索引和/或以您想要的方式存储。

.

于 2017-12-04T09:29:10.283 回答