presto - Presto 仪表板 + presto worker 机器不稳定

Question

我们注意到我们的 presto 集群中出现了以下奇怪的行为（presto 安装在 Linux 机器上）

我们有 9 台 presto 工人机器，

从 presto 仪表板我们可以看到，有些时候有7-8活跃的工作人员，有些时候所有的 presto 工作人员 -9

这是正常行为吗？

从 presto 工人日志中我看不出有什么不寻常的地方

而且我不确定我们是否需要搜索任何网络问题或任何其他问题？

注意 - 当我重新启动所有 presto 工作人员时，重新启动后 presto 工作人员在仪表板上是稳定的，但在5-10几个小时后我们再次出现奇怪的行为，我们对这种情况无能为力，

注1 - 我们检查 presto 二进制文件是否意外重启 - 但事实并非如此，所有 presto 工作程序二进制文件都是稳定的

./launcher status
Running as 22815

我必须另外说，Presto 仪表板没有显示哪些 presto 工作人员出现故障，因此很难理解哪些是“坏”的 presto 工作人员，

*** 在 presto 协调器日志中 - 我们可以看到这样的消息：

- but not sure this are related to our issues? 

WARN    http-client-memoryManager-scheduler     com.facebook.presto.memory.RemoteNodeMemory     Error fetching memory info from http://105.14.25.4:1010/v1/memory: java.util.concurrent.TimeoutException: Total timeout 10000 ms elapsed

score 4 · Accepted Answer

对于我的问题给您带来的不便，我深表歉意

实际上这是我的错误，我会解释

在这个 presto 集群中，我们有 9 个 presto 工作者

但我忘记从其他集群中删除相同的主机名工作人员

所以这种行为是因为 3 个重复的主机名（presto workers）

删除重复的 presto 工作人员后，现在 presto 非常稳定

presto - Presto 仪表板 + presto worker 机器不稳定

1 回答 1

Related

Reference