apache-kafka - Kafka 与 AWS GLUE 的集成

Question

找不到此特定集成的任何特定组。

我正在为一家零售组织工作，并尝试将 Kafka 流与 Glue 直接集成。我的意思是将 Kafka 主题作为 AWS Glue 的输入源。我正在使用 Apache Kafka 2.12。

如果有人研究过这个集成模式，我会来这个小组寻求帮助。我在此集成测试期间遇到的问题如下

1) 当我在 AWS Glue 控制台中创建到 Kafka 的连接时，AWS Glue 控制台上的“测试连接”选项被禁用（灰显）。所以不确定我创建的连接是否正常。

2) 在我的设置中 - 输入源是带有 JSON 格式消息的 Kafka / Topic。目标我保留为 S3/csv 格式，源和目标之间的字段默认映射。我选择 SparkStreaming 作为工作类型。

主要问题是 AWS Glue 作业连续运行数小时，但不生成任何输出。似乎 job/pyspark 脚本无法从 Kafka 读取。即使在日志中，我也无法确定它是否连接到 kafka 服务器

3) 当使用 Kafka Stream 作为 AWS Glue 的输入源时 - AWS Glue 数据库中的表/架构需要手动创建，我们已经这样做了。但我不确定表模式是否正确创建，正如我在下面的作业日志中注意到的那样（isRegisteredWithLF：false）

2020-05-29 09:46:34,047 INFO [Thread-9]glue.GlueContext (GlueContext.scala:getCatalogSource(176)) - getCatalogSource: catalogId: null, nameSpace: poc-glue-athena-database, tableName: kafka_stream, isRegisteredWithLF: 假

4）有人可以确认AWS Glue作业是否在内部使用KSql（一个kafka组件）。我收到以下关于 kafka 中端口 8088 （我想它用于 KSQL Server ）的警告。我可以理解这一点——为什么会这样，因为我没有在我的设置中设置 KSQL 实例。因为它是警告 - 我认为这不应该是 AWS Glue Job 无法工作的大问题。2020-05-29 09:46:36,201 WARN [Thread-9] client.YarnClient (YarnClient.java:makeRestApiRequest(66)) - URL http://0.0.0.0:8088/ws/v1的 GET 请求失败/cluster/apps/application_1590745365782_0001 com.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.conn.HttpHostConnectException：连接到 0.0.0.0:8088 [/0.0.0.0] 失败：连接被拒绝（连接被拒绝)

问候桑吉夫

score 0 · Accepted Answer

我一直在为 TLS 使用引导服务器（：9094），并且没有在 GLUE 中读取数据。但是当我将引导服务器用于纯文本时（kafka.us-west-2.amazonaws.com:9092）。它正在被阅读。

apache-kafka - Kafka 与 AWS GLUE 的集成

1 回答 1

Related

Reference