python - Apache Flink：Python 流 API 中的 Kafka 连接器，“无法加载用户类”

Question

我正在尝试 Flink 的新 Python 流 API 并尝试使用./flink-1.6.1/bin/pyflink-stream.sh examples/read_from_kafka.py. python 脚本相当简单，我只是尝试从现有主题中使用并将所有内容发送到标准输出（或输出方法默认发出数据的日志目录中的 *.out 文件）。

import glob
import os
import sys
from java.util import Properties
from org.apache.flink.streaming.api.functions.source import SourceFunction
from org.apache.flink.streaming.api.collector.selector import OutputSelector
from org.apache.flink.api.common.serialization import SimpleStringSchema

directories=['/home/user/flink/flink-1.6.1/lib']
for directory in directories:
    for jar in glob.glob(os.path.join(directory,'*.jar')):
                sys.path.append(jar)

from org.apache.flink.streaming.connectors.kafka import FlinkKafkaConsumer09

props = Properties()
config = {"bootstrap_servers": "localhost:9092",
          "group_id": "flink_test",
          "topics": ["TopicCategory-TopicName"]}
props.setProperty("bootstrap.servers", config['bootstrap_servers'])
props.setProperty("group_id", config['group_id'])
props.setProperty("zookeeper.connect", "localhost:2181")

def main(factory):
    consumer = FlinkKafkaConsumer09([config["topics"]], SimpleStringSchema(), props)

    env = factory.get_execution_environment()
    env.add_java_source(consumer) \
        .output()
    env.execute()

我从 maven repos 中抓取了一些 jar 文件，即flink-connector-kafka-0.9_2.11-1.6.1.jar，flink-connector-kafka-base_2.11-1.6.1.jar并将kafka-clients-0.9.0.1.jar它们复制到 Flink 的lib目录中。除非我误解了文档，否则这足以让 Flink 加载 kafka 连接器。事实上，如果我删除这些 jar 中的任何一个，导入就会失败，但这似乎不足以实际调用该计划。添加一个 for 循环来动态添加这些sys.path也不起作用。这是在控制台中打印的内容：

Starting execution of program
Failed to run plan: null
Traceback (most recent call last):
  File "<string>", line 1, in <module>
  File "/tmp/flink_streaming_plan_9cfed4d9-0288-429c-99ac-df02c86922ec/read_from_kafka.py", line 32, in main
    at org.apache.flink.client.program.rest.RestClusterClient.submitJob(RestClusterClient.java:267)
    at org.apache.flink.client.program.ClusterClient.run(ClusterClient.java:486)
    at org.apache.flink.streaming.api.environment.StreamContextEnvironment.execute(StreamContextEnvironment.java:66)
    at org.apache.flink.streaming.api.environment.StreamExecutionEnvironment.execute(StreamExecutionEnvironment.java:1511)
    at org.apache.flink.streaming.python.api.environment.PythonStreamExecutionEnvironment.execute(PythonStreamExecutionEnvironment.java:245)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)

org.apache.flink.client.program.ProgramInvocationException: org.apache.flink.client.program.ProgramInvocationException: Job failed. (JobID: bbcc0cb2c4fe6e3012d228b06b270eba)

The program didn't contain a Flink job. Perhaps you forgot to call execute() on the execution environment.

这是我在日志中看到的：

org.apache.flink.streaming.runtime.tasks.StreamTaskException: Cannot load user class:    org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer09
ClassLoader info: URL ClassLoader:
    file: '/tmp/blobStore-9f6930fa-f1cf-4851-a0bf-2e620391596f/job_ca486746e7feb42d2d162026b74e9935/blob_p-9321896d165fec27a617d44ad50e3ef09c3211d9-405ccc9b490fa1e1348f0a76b1a48887' (valid JAR)
Class not resolvable through given classloader.
    at org.apache.flink.streaming.api.graph.StreamConfig.getStreamOperator(StreamConfig.java:236)
    at org.apache.flink.streaming.runtime.tasks.OperatorChain.<init>(OperatorChain.java:104)
    at org.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:267)
    at org.apache.flink.runtime.taskmanager.Task.run(Task.java:711)
    at java.lang.Thread.run(Thread.java:748)

有没有办法解决这个问题并使连接器对 Python 可用？我怀疑这是 Jython 的 Classloader 问题，但我不知道如何进一步调查（也考虑到我不了解 Java）。非常感谢。

score 1 · Accepted Answer

您在这里使用了错误的 Kafka 消费者。在您的代码中，它是FlinkKafkaConsumer09，但您使用的库是flink-connector-kafka-0.11_2.11-1.6.1.jar，它是用于FlinkKafkaConsumer011. 尝试FlinkKafkaConsumer09用这个替换FlinkKafkaConsumer011，或者使用 lib 文件flink-connector-kafka-0.9_2.11-1.6.1.jar而不是当前文件。

score 0 · Accepted Answer

我guest的jar文件可能有内置的import或者依赖，所以三个jar文件是不够的。至于如何找出java jar依赖关系，java maven就是这么做的。可以查看官网“project build setup”寻求帮助。就我而言，我遵循官方 java 项目设置，使用“from org.apache.flink.streaming.connectors.kafka import FlinkKafkaConsumer”并将依赖项“org.apache.flink
flink-clients_2.11
1.8.0”添加到 pom.xml ，然后我现在可以使用 Python API 将 kafka 记录输出到标准输出。

python - Apache Flink：Python 流 API 中的 Kafka 连接器，“无法加载用户类”

2 回答 2

Related

Reference