在 ETL 级联作业结束时,我正在使用 elasticsearch-hadoop 使用 Hadoop 计数器公开的 Hadoop 指标提取有关 Elasticsearch摄取的指标。
我想使用 Spark 做同样的事情,但我没有找到与使用Spark 连接器的指标相关的文档。
并非总是如此,但通常情况下,我们将在 EMR (Hadoop) 中执行作业,因此Spark 连接器可能以与级联连接器相同的方式使用 Hadoop。无论如何,我认为情况并非如此,因为我认为它仅适用于像 Cascading 这样的“MapReduce 连接器类型”。
所以我的问题是:
- 如何从 Elasticsearch Spark 连接器中提取指标?
- 如果连接器使用 Hadoop 计数器,当我在 Hadoop Yarn 中执行它时,如何从 Spark 访问 Hadoop 计数器?
版本:
- 斯卡拉 2.11.8
- 火花 2.1
- Hadoop 2.7.2
- 弹性搜索-火花-20_2.11 5.2.2