1

我即将将来自 Apache NiFi 的推文作为 POST 索引到 Elasticsearch,并希望执行以下操作:

  1. create_at字段设为日期。我应该为此使用映射或索引模板吗?

  2. 使某些字段不分析。像主题标签、URL 等。

  3. 想要存储的不是整个推文,而是一些重要的字段。像文本一样,不是所有的用户信息,而是一些字段、主题标签、来自实体的 URL(在帖子 URL 中)。不需要引用的来源。等等在这种情况下我应该使用什么?模板?使用一些 ETL 过程对推文进行预处理,以便提取我需要的数据并在 ES 中编制索引?

我有点困惑。将非常感谢建议。

提前致谢。

4

1 回答 1

1

我猜在你的 NiFi 中你配置了 GetTwitter 和 PostHTTP 之类的东西。NiFi 已经是某种 ETL,所以你可能不需要另一个。但是,由于您不想索引来自 Twitter 的整个 JSOn,显然您需要另一个 NiFi 进程来选择您想要的内容并将原始 JSON 转换为另一个更轻量级的 JSON。是一个关于如何为 Solr 执行此操作的示例,但我不确定 Elasticsearch 是否存在相同的处理器。

这篇关于使用 Logstash 将 Twitter 数据流式传输到 Elasticsearch 的文章展示了一个可能的索引模板,您可以使用该模板来构建自己的模板(即,create_at如果您愿意,可以添加数据字段)。

由于您不想为所有内容编制索引,因此适合您的方法显然是提出您自己的映射,然后您可以在索引模板中使用它。使用索引模板,您将能够创建您认为合适的每日/每周/每月推特索引。

于 2015-12-06T04:53:31.700 回答