1

我们正在运行 Apache Pulsar 2.72。在使用 5 节点 (aws r5ad.2xlarge) bookie 集群 (4.12.0) 的 Prod 中。其中一个节点被终止。根据我们的 ASG,一个新节点出现并加入了集群。博彩公司有

  1. autoRecoveryDaemonEnabled=true
  2. lostBookieRecoveryDelay=0
  3. bookkeeperClientMinNumRacksPerWriteQuorum=2
  4. managedLedgerDefaultEnsembleSize=3
  5. managedLedgerDefaultWriteQuorum=3

然而,账本重新复制并没有发生。我尝试使用 sudo /opt/apache-pulsar/apache-pulsar-2.7.2/bin/bookkeeper shell decommissionbookie -bookieid bookieIP:port 停用终止的节点,但它卡在 23:53:36.465 [main] INFO org.apache .bookkeeper.client.BookKeeperAdmin - 需要重新复制的分类帐计数:793 00:03:37.293 [main] INFO org.apache.bookkeeper.client.BookKeeperAdmin - 需要重新复制的分类帐计数:793 00:13: 38.119 [main] INFO org.apache.bookkeeper.client.BookKeeperAdmin - 需要重新复制的分类帐计数:793 00:23:39.194 [main] INFO org.apache.bookkeeper.client.BookKeeperAdmin - 需要重新复制的分类帐计数被重新复制:793 00:33:39.995 [main] INFO org.apache.bookkeeper.client.BookKeeperAdmin - 需要重新复制的分类帐计数:793 超过 30 分钟。我们甚至尝试使用 sh bookkeeper shell listunderreplicated 获取复制不足的分类帐,并使用 sh bookkeeper shell ledger -m 读取一些返回的分类帐,但失败并出现异常,抱怨无法访问已终止的 bookie。我们最终删除了复制不足的分类帐。

我正在寻找一个建议,以最好地从终止的 bookie 中恢复,因为我们不得不删除分类帐

4

1 回答 1

0

现在 Apache Pulsar 2.8.1 已经发布了,您可以升级并重试吗?这似乎不寻常。

要在一个地点接触所有 Pulsar 人,请注册参加峰会

https://streamnative.io/en/blog/community/2021-09-07-speakers-announced-for-pulsar-virtual-summit-europe-2021/

于 2021-09-28T15:26:02.503 回答