我无法使 TaskManager 与 docker swarm 堆栈上的 JobManager 通信。
stack.yml
我使用的文件内容docker stack deploy
是:
version: "3"
services:
jobmanager:
image: affo/flink:1.1.3
ports:
- "48081:8081"
command: jobmanager
networks:
- my-net
deploy:
mode: replicated
replicas: 1
restart_policy:
condition: none
placement:
constraints:
- node.role == manager
taskmanager:
image: affo/flink:1.1.3
depends_on:
- jobmanager
command: taskmanager
networks:
- my-net
deploy:
mode: replicated
replicas: 4
restart_policy:
condition: none
placement:
constraints:
- node.role != manager
networks:
my-net:
external: true
Docker 镜像affo/flink:1.1.3
是对 dockerhub 的推送,该镜像是按照 README @ https://github.com/apache/flink/tree/release-1.1.3-rc2/flink-contrib/docker-flink构建的。
网络my-net
是覆盖可连接的网络。
我尝试使用 DNS 解析从其他容器 ping 每个容器,并且一切正常。
但是没有TaskManager 可以通过JobManager。
我报告 JobManager 日志:http://pastebin.com/Ai5s4Xvr
以及一个TaskManager的日志:http: //pastebin.com/ty5pZhSp
JM 有 VIP 10.0.42.7。并jobmanager.rpc.address
设置为jobmanager
解析为 10.0.42.7。
任何有关从哪里开始解决问题的帮助或提示将不胜感激。
非常感谢!
更新
我添加的输出docker exec <jobmanager> netstat -tulpn
:
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name
tcp 0 0 127.0.0.11:40762 0.0.0.0:* LISTEN -
tcp 0 0 ::ffff:10.0.42.7:6123 :::* LISTEN 218/java
tcp 0 0 :::8081 :::* LISTEN 218/java
tcp 0 0 :::34963 :::* LISTEN 218/java
udp 0 0 127.0.0.11:57000 0.0.0.0:* -
和docker exec <a_taskmanager> telnet jobmanager 6123
:
telnet: can't connect to remote host (10.0.42.7): Connection refused
我还在 github 上放了一个可能相关问题的链接:https ://github.com/docker/docker/issues/28795 。
再次感谢
更新
我最近设法将其更改jobmanager.rpc.address
为0.0.0.0
仅在 JobManager 上,现在它正在有效地监听:
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name
tcp 0 0 127.0.0.11:56218 0.0.0.0:* LISTEN -
tcp 0 0 :::6123 :::* LISTEN 218/java
tcp 0 0 :::8081 :::* LISTEN 218/java
tcp 0 0 :::55231 :::* LISTEN 218/java
udp 0 0 127.0.0.11:47549 0.0.0.0:* -
我什至可以nc
或telnet
从TaskManagers。
但是,现在的问题是(在 JobManager 上):
2017-02-09 10:31:20,794 ERROR akka.remote.EndpointWriter
- dropping message [class akka.actor.ActorSelectionMessage] for non-local recipient
[Actor[akka.tcp://flink@10.0.42.7:6123/]] arriving at [akka.tcp://flink@10.0.42.7:6123]
inbound addresses are [akka.tcp://flink@0.0.0.0:6123]
任何帮助将不胜感激,谢谢!
更新
我想我隔离了这个问题。在 github 上打开的问题:https ://github.com/docker/docker/issues/30874