问题标签 [openpai]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - PAI 教程示例无法运行。使用“[退出代码]:177”
我正在关注 PAI 工作教程。
这是我的工作配置:
作业提交成功,但很快就失败了,大约 4 分钟后。
下面是我的“应用程序摘要”。
开始时间:2018 年 6 月 15 日,晚上 8:18:01
完成时间:2018 年 6 月 15 日,晚上 8 点 22 分 31 秒
退出诊断:
[ExitStatus]:LAUNCHER_EXIT_STATUS_UNDEFINED [ExitCode]:177 [ExitDiagnostics]:Launcher 中未定义 ExitStatus,可能是 UserApplication 本身失败。[ExitType]:未知 _________________________________________________________________________________________________________________________________________________________________________________________ [ExitCustomizedDiagnostics]:[ExitCode]:1 [ExitDiagnostics]:容器启动异常。容器 ID:container_1529064439409_0003_01_000005 退出代码:1 堆栈跟踪:ExitCodeException exitCode=1:在 org.apache.hadoop.util.Shell.runCommand(Shell.java:545) 在 org.apache.hadoop.util.Shell.run(Shell. java:456) 在 org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor 的 org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:722)。
Shell 输出:[ERROR] 在纱线容器中接收到 EXIT 信号,正在退出...
容器以非零退出代码 1 退出
______________________________________________________________________________________________________________________________________________________________________________________________ [ExitCustomizedDiagnostics]:
工人:TASK_COMPLETED:[TaskStatus]:{“taskIndex”:1,“taskRoleName”:“worker”,“taskState”:“TASK_COMPLETED”,“taskRetryPolicyState”:{“retriedCount”:0,“succeededRetriedCount”:0,“transientNormalRetriedCount” “:0,“transientConflictRetriedCount”:0,“nonTransientRetriedCount”:0,“unKnownRetriedCount”:0},“taskCreatedTimestamp”:1529065083290,“taskCompletedTimestamp”:1529065346772,“taskServiceStatus”:{“serviceVersion”:0},“containerId” :“container_1529064439409_0003_01_000005”,“containerHost”:“10.11.1.9”,“containerIp”:“10.11.1.9”,“containerPorts”:“http:2938;ssh:2939;”,“containerGpus”:15,“containerLogHttpAddress”:“ http://10.11.1.9:8042/node/containerlogs/container_1529064439409_0003_01_000005/admin/", "containerConnectionLostCount" : 0, "containerIsDecommissioning" : null, "containerLaunchedTimestamp" : 1529065087200, "containerCompletedTimestamp" : 1529065346768, "containerExitCode" : 1, "containerExitDiagnostics" : "Exception from container-launch.\nContainer id: container_1529064439409_0003_01_000005\nExit代码:1\n堆栈跟踪:ExitCodeException exitCode=1:\n\tat org.apache.hadoop.util.Shell.runCommand(Shell.java:545)\n\tat org.apache.hadoop.util.Shell.run( Shell.java:456)\n\tat org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:722)\n\tat org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer( DefaultContainerExecutor.java:212)\n\tat org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher。ContainerLaunch.call(ContainerLaunch.java:302)\n\tat org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)\n\tat java.util.concurrent。 FutureTask.run(FutureTask.java:266)\n\tat java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)\n\tat java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java: 624)\n\tat java.lang.Thread.run(Thread.java:748)\n\nShell 输出:[ERROR] 在纱线容器中收到 EXIT 信号,正在退出 ...\n\n\n容器以非-零退出代码 1\n", "containerExitType" : "UNKNOWN" } [ContainerDiagnostics]: 容器在主机名 10.11.1.9 上完成 container_1529064439409_0003_01_000005。ContainerLogHttpAddress:hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)\n\tat java.util.concurrent.FutureTask.run(FutureTask.java:266)\n\tat java.util. concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)\n\tat java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)\n\tat java.lang.Thread.run(Thread.java: 748)\n\nShell 输出:[错误] 在纱线容器中收到 EXIT 信号,正在退出 ...\n\n\n容器以非零退出代码退出 1\n", "containerExitType" : "UNKNOWN" } [ ContainerDiagnostics]:容器在主机名 10.11.1.9 上完成 container_1529064439409_0003_01_000005。ContainerLogHttpAddress:hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)\n\tat java.util.concurrent.FutureTask.run(FutureTask.java:266)\n\tat java.util. concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)\n\tat java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)\n\tat java.lang.Thread.run(Thread.java: 748)\n\nShell 输出:[错误] 在纱线容器中收到 EXIT 信号,正在退出 ...\n\n\n容器以非零退出代码退出 1\n", "containerExitType" : "UNKNOWN" } [ ContainerDiagnostics]:容器在主机名 10.11.1.9 上完成 container_1529064439409_0003_01_000005。ContainerLogHttpAddress:运行(FutureTask.java:266)\n\tat java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)\n\tat java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) \n\tat java.lang.Thread.run(Thread.java:748)\n\nShell 输出:[ERROR] 在纱线容器中收到 EXIT 信号,正在退出 ...\n\n\n容器以非零值退出退出代码 1\n", "containerExitType" : "UNKNOWN" } [ContainerDiagnostics]: 容器在 HostName 10.11.1.9 上完成 container_1529064439409_0003_01_000005。ContainerLogHttpAddress:运行(FutureTask.java:266)\n\tat java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)\n\tat java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) \n\tat java.lang.Thread.run(Thread.java:748)\n\nShell 输出:[ERROR] 在纱线容器中收到 EXIT 信号,正在退出 ...\n\n\n容器以非零值退出退出代码 1\n", "containerExitType" : "UNKNOWN" } [ContainerDiagnostics]: 容器在 HostName 10.11.1.9 上完成 container_1529064439409_0003_01_000005。ContainerLogHttpAddress:[错误] 在纱线容器中收到退出信号,正在退出 ...\n\n\n容器以非零退出代码 1\n", "containerExitType" : "UNKNOWN" } [ContainerDiagnostics]: 容器在 HostName 上完成 container_1529064439409_0003_01_000005 10.11.1.9. ContainerLogHttpAddress:[错误] 在纱线容器中收到退出信号,正在退出 ...\n\n\n容器以非零退出代码 1\n", "containerExitType" : "UNKNOWN" } [ContainerDiagnostics]: 容器在 HostName 上完成 container_1529064439409_0003_01_000005 10.11.1.9. ContainerLogHttpAddress: http://10.11.1.9:8042/node/containerlogs/container_1529064439409_0003_01_000005/admin/ AppCacheNetworkPath: 10.11.1.9:/var/lib/hadoopdata/nm-local-dir/usercache/admin/appcache/application_1529064439409_00111.ContainerLogNetworkPath:1. /var/lib/yarn/userlogs/application_1529064439409_0003/container_1529064439409_0003_01_000005 ______________________________________________________________________________________________________________________________________________________________________________ [AMStopReason]:任务工作者已完成并已启用 KillAllOnAnyCompleted。
找到更多日志详细信息:
结论:
代码不完整,需要一些依赖。下面我提供一个工作作业配置。
openpai - 使用openpai,任务是否可以在多个worker上工作?
比如我搭建了一个有2个worker的pai集群,每个worker有2个GPU。如果我想用四个GPU来运行一个任务,这个集群能满足需求,同时使用两个worker来运行这个任务吗?
openpai - 概念Job和Framework的区别和关系
我没有找到OpenPai概念的逻辑模型文档,看了一些代码,我觉得Job和框架一样?工作是面向用户的概念,而框架是内部名称。我对么?
kubeflow - 为什么不在 PAI k8s 集群中设置 kube-dns?
我尝试在集群中部署 kubeflow,发现没有可用的 dns 服务。我不确定原因,有人可以解释一下吗?
openpai - openpai k8s集群部署rest-server失败
无法在 k8s 集群上部署最新的 rest-server
/usr/src/app/src/config/launcher.js: 144 throw new Error('cannot connect to framework launcher'); npm 错误!代码 ELIFECYCLE npm 错误!错误号 1
python paictl.py 服务启动 -n 休息服务器
我尝试了 v0.12.0 和最新版本,都因相同的错误而失败。OpenPai 团队中的任何人都可以提供帮助吗?
openpai - 只有CUDA库(没有OpenMPI)的多GPU并行处理代码是否有自动多节点分布式处理功能?
我正在构建和测试 OpenPAI v0.14.0。以前,我在 1 节点 4-gpu 机器上构建了 OpenPAI,并将其用于 4-gpu 分布式并行处理。
这一次,一台新的 1-node 2-gpu 机器进来并连接了两个节点。OpenPAI 仪表板显示有 6 个 gpu 可用。但是,当我尝试将一项作业分配给 6-gpu 时,我得到退出代码:-7200,退出原因:maxGPUs = 4。
我认为maxGPU = 4,一个节点上最大的GPU数量。OpenPAI 支持的 GPU 分发是否只能在一个节点上进行?
我在 openpai.readthedocs.io 网站上找到了分布式作业示例。 https://openpai.readthedocs.io/en/latest/manual/cluster-user/advanced-jobs.html#distributed-job-examples
这里的两个示例之一,TensorFlow CIFAR10,似乎正在将不同的作业分配到不同的节点,即参数服务器和工作者。对于另一个例子,Horovod PyTorch,似乎不仅编写了 GPU 分布式代码,而且已经使用 OpenMPI 来分布代码内部的节点。
仅当分布式编程使用 OpenMPI 在代码级别直接使用多节点时,我是否可以在 OpenPAI 中使用多节点分布式 GPU 并行化?
OpenPAI 不会自动处理仅使用 CUDA 库的多节点分布式多 GPU 并行编程吗?
谢谢你。
openpai - 用于多个部署的单个 V1.0.0 devbox
对于 V1.0.0 之前的部署,Admin。可以为每个单独的 OpenPAI 集群启动并保留一个 dev-box 容器。因此管理员。可以在单个主机/VM 上拥有多个 dev-box 容器,用于不同的 OpenPAI 集群部署和管理(例如添加工作者)
基于https://openpai.readthedocs.io/en/release-1.0.0/manual/cluster-admin/installation-guide.html#installation-guide上的 V1.0.0 部署 SOP,将创建和删除devbox 容器在quick-start-kubespray.sh和quick-start-service.sh脚本中。当在部署的最后一步选择 kubectl 安装在 devbox 主机上时,似乎我们只能有一个 devbox 主机/VM 用于一个 OpenPAI 集群部署和管理。这样,需要为每个 OpenPAI 部署创建开发盒主机/VM。
是否可以有一个 devbox 主机/VM 用于多个集群部署和管理?
openpai - 我做了一个 pvc,为什么我的 openpai 仪表板看不到任何存储?
这是我的pvc.yaml
:
这是我的仪表板:
我的权威错了吗?
openpai - 我可以在 OpenPAI 中使用 selfhost AD 吗?
由于某些原因,我们的服务器无法连接到 Internet,因此我们有一个自托管 AD 服务器来管理用户。我想知道我是否可以使用它,因为文档只说他们支持 AAD :( 谢谢!