找不到此特定集成的任何特定组。
我正在为一家零售组织工作,并尝试将 Kafka 流与 Glue 直接集成。我的意思是将 Kafka 主题作为 AWS Glue 的输入源。我正在使用 Apache Kafka 2.12。
如果有人研究过这个集成模式,我会来这个小组寻求帮助。我在此集成测试期间遇到的问题如下
1) 当我在 AWS Glue 控制台中创建到 Kafka 的连接时,AWS Glue 控制台上的“测试连接”选项被禁用(灰显)。所以不确定我创建的连接是否正常。
2) 在我的设置中 - 输入源是带有 JSON 格式消息的 Kafka / Topic。目标我保留为 S3/csv 格式,源和目标之间的字段默认映射。我选择 SparkStreaming 作为工作类型。
主要问题是 AWS Glue 作业连续运行数小时,但不生成任何输出。似乎 job/pyspark 脚本无法从 Kafka 读取。即使在日志中,我也无法确定它是否连接到 kafka 服务器
3) 当使用 Kafka Stream 作为 AWS Glue 的输入源时 - AWS Glue 数据库中的表/架构需要手动创建,我们已经这样做了。但我不确定表模式是否正确创建,正如我在下面的作业日志中注意到的那样(isRegisteredWithLF:false)
2020-05-29 09:46:34,047 INFO [Thread-9]glue.GlueContext (GlueContext.scala:getCatalogSource(176)) - getCatalogSource: catalogId: null, nameSpace: poc-glue-athena-database, tableName: kafka_stream, isRegisteredWithLF: 假
4)有人可以确认AWS Glue作业是否在内部使用KSql(一个kafka组件)。我收到以下关于 kafka 中端口 8088 (我想它用于 KSQL Server )的警告。我可以理解这一点——为什么会这样,因为我没有在我的设置中设置 KSQL 实例。因为它是警告 - 我认为这不应该是 AWS Glue Job 无法工作的大问题。2020-05-29 09:46:36,201 WARN [Thread-9] client.YarnClient (YarnClient.java:makeRestApiRequest(66)) - URL http://0.0.0.0:8088/ws/v1的 GET 请求失败/cluster/apps/application_1590745365782_0001 com.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.conn.HttpHostConnectException:连接到 0.0.0.0:8088 [/0.0.0.0] 失败:连接被拒绝(连接被拒绝)
问候桑吉夫