1

我正在修复一个导致我们的 CI/CD 管道失败的错误。在集成测试期间,我们启动了一个本地数据库实例。为了做到这一点,我们使用一些 mariadb 包装器从 java 代码库中启动它。

这个过程可能(可能)需要很长时间才能完成,这将导致我们的测试超时。在这种情况下,我们添加了一个功能,如果进程无法在 20 秒内安装并应重试,则终止该进程。

这部分似乎正在工作。

尝试破坏进程时会出现奇怪的情况。似乎随机需要大约 2-3 分钟才能解锁。这是有问题的,原因与上述问题有问题的原因相同。

在对底层库进行调查后,我们似乎正在使用 ExecuteWatchdog 来管理进程。这是一些阻塞的代码是:

watchDog.destroyProcess();
// this part usually returns nearly instantly

try {
  // this part can take minutes...
  resultHandler.waitFor();
} catch (InterruptedException e) {
  throw handleInterruptedException(e);
}

除此之外,Mac/Linux 上还有不同的行为。如果我做类似的事情resultHandler.waitFor(1000) // Wait with 1000ms timeout before just exiting,它会在 macbook 上正常工作,但在 linux 上我会看到如下错误:java.io.FileNotFoundException: {{executable}} (Text file busy)

对此有什么想法吗?

我做了一些研究,似乎watchDog.destroyProcess发送的是 SIGTERM 而不是 SIGKILL。但是我没有任何钩子来获取Process对象以便将其发送 KILL 。

谢谢。

4

1 回答 1

0

使用进程时阻塞的一个常见原因是进程在输出时被阻塞,无论是输出到 stdout 还是(更可能被忽略)stderr。

在这种情况下,在 CI 服务器上设置测试时,您可以尝试将输出错误输出设置为INHERIT.

请注意,这意味着您将无法读取 Java 代码中的子流程输出或错误流。我的假设是您无论如何都不会尝试这样做,这就是该过程挂起的原因。相反,该输出将被重定向到 Java 进程的输出,我希望您的 CI 服务器会将其记录为构建的一部分。

于 2020-02-07T23:01:51.640 回答