1

我们希望将爬虫页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers=true但我不信任服务器的 http-headers。

所以我们把 FetchedBolt 改成这样写

协议响应#getContent().length

作为元数据的值(除了“bytes_fetched”指标)。

有没有办法在不更改代码的情况下获得这个值?(我们可以在 fetch 和 parse 之间添加一个额外的螺栓,希望有一个更简单的解决方案。)

4

1 回答 1

1

这可以在协议级别完成,但在 FetcherBolt 中可能更简单。你介意贡献你的代码并打开一个 PR 吗?谢谢

于 2017-12-29T07:06:33.277 回答