我们希望将爬虫页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers=true但我不信任服务器的 http-headers。
所以我们把 FetchedBolt 改成这样写
协议响应#getContent().length
作为元数据的值(除了“bytes_fetched”指标)。
有没有办法在不更改代码的情况下获得这个值?(我们可以在 fetch 和 parse 之间添加一个额外的螺栓,希望有一个更简单的解决方案。)
我们希望将爬虫页面的内容长度作为元数据存储在文档中。我知道我们可以设置http.store.headers=true但我不信任服务器的 http-headers。
所以我们把 FetchedBolt 改成这样写
协议响应#getContent().length
作为元数据的值(除了“bytes_fetched”指标)。
有没有办法在不更改代码的情况下获得这个值?(我们可以在 fetch 和 parse 之间添加一个额外的螺栓,希望有一个更简单的解决方案。)