问题标签 [dask-gateway]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
163 浏览

google-cloud-platform - Dask Hub/JupyterHub - 无法启动 Python 内核

我使用 helm 在 Google Kubernetes Engine 上部署了 Dask Hub(Dask Gateway + Jupyterhub)。当我启动我的 jupyter notebook 实例时,我在获取 Python 内核时遇到了问题。当我在公司的 VPN 上时会出现此错误,但当我不在公司的 VPN 上时不会出现错误。我猜测这与防火墙有关,但我对 Jupyterhub 内核的内部了解不足,无法理解它被阻止的原因。有人可以对此有所了解吗?

在此处输入图像描述

通过检查 jupyter pod 的日志,我看不出任何问题:

在此处输入图像描述

在浏览器的开发者控制台中,出现以下错误:

在此处输入图像描述

更新:

我在 Jupyterhub 配置中添加了以下内容:

0 投票
1 回答
185 浏览

python - Dask Gateway - Dask 工作人员因 PermissionError 而死

我正在尝试在 Google Kubernetes Engine 上部署 Dask Gateway。部署没有问题。但是,我在使用继承自 dockerhub 的默认 docker 映像的自定义 dask-gateway dockerfile 时遇到问题;然后将容器提交到 Google Container Registry (GCR)。它似乎导致以下 PermissionError。

(有关完整堆栈跟踪,请参见下面的屏幕截图)

有趣的是,当 dask 工作人员直接从 dockerhub 而不是 GCR 使用 docker 映像时,黑暗工作人员启动时没有任何问题。我需要使用自定义的 dockerfile 来为黑暗工作者添加更多的 python 包,但除此之外,没有其他配置更改。就好像将 docker 容器发送到 GCR 对权限做了一些奇怪的事情。

这是错误的完整堆栈跟踪:

在此处输入图像描述

这是我用于 dask 工作人员的 dockerfile:

任何帮助将不胜感激,因为我不知道如何调试。

0 投票
1 回答
449 浏览

dask - 您如何将 GPU 支持与 Dask Gateway 集成?

我们目前正在将 Dask Gateway 与仅 CPU 工作人员一起使用。然而,随着深度学习被更广泛地采用,我们希望过渡到为通过 Dask Gateway 创建的集群添加 GPU 支持。

我查看了 Dask Gateway 文档,关于如何设置它以及我们需要更改 helm chart/config 的哪些部分以启用此功能的详细说明并没有太多。

我的想法是首先在 GCP 上的 GKE 集群中添加一个 GPU,然后为使用该 GPU 的 dask 工作人员使用 RAPIDS dockerfile?这就是 Dask Gateway 所需的全部设置吗?

如果有人能指出我正确的方向,将不胜感激。

0 投票
0 回答
59 浏览

google-cloud-platform - 使用私有 IP 地址/VPC 时如何在 Dask Gateway 中查看 Dask Daskboard?

我们在 Google Cloud Platform 上的 Kubernetes 上部署了 Dask Gateway。出于安全目的,我们目前正在使用内部 TCP 负载均衡器来公开 traefik 代理。我们的用户能够创建到通过 Dask Gateway 生成的集群的客户端连接就好了。但是因为我们现在在私有 VPC 上使用内部负载均衡器,所以无法再访问仪表板的链接。我们如何公开这个仪表板链接?

我试图做的是为 Dask Dashboard 创建一个单独的外部负载均衡器,然后在集群配置中,以某种方式将其指向外部负载均衡器。但我不太确定如何在 kubernetes helm 图表中执行此操作。

提前致谢。

0 投票
0 回答
82 浏览

python - Dask - 新集群创建失败,“dask”用户欠 HDFS 文件

我按照此处的说明在我的 MapR 集群的边缘节点上设置了 dask:https ://gateway.dask.org/install-hadoop.html

根据这些指示,我正在通过在 JupyterHub 生成的 ipython 笔记本中运行以下命令来测试安装:

但是,当它尝试通过 YARN 启动新集群时,我在 YARN 应用程序的日志中收到以下错误:

尽管 dask 应该作为请求用户(在本例中为 a059571)运行,但它似乎正在作为运行 dask-gateway-server 的用户(在本例中为用户 mapr)创建目录:

我觉得我错过了一些明显的东西。

这是我的配置,以供全面披露:

/etc/dask-gateway/dask_gateway_config.py

我的 core_site.xml 中的片段

而且,来自 dask-gateway-server 日志的一些有趣的行:

注意:sa1x-hadoopedg-np1.hchc.local == 12.190.113.133,一个 RHEL 7.x 服务器。MapR 集群是 6.x。

0 投票
0 回答
45 浏览

dask - Azure 上的 Dask 网关设置

我正在尝试在 AKS 中设置 dask 网关。按照文档,我能够在 AKS 中启动 dask 网关服务器。我们还在同一个集群中托管了一个单独的 jupyternotebook 实例。当我尝试从此 jupyternotebook 实例访问网关服务器时,它失败并出现以下错误:

在此处输入图像描述

在 dask 网关文档中,它显示了使用 IP 地址访问网关服务器。但在实际设置中,我们会使用 url,对吧?如何为此配置 dask gateway helm 图表

0 投票
0 回答
32 浏览

dask - 通过 env vars 配置 dask 网关

在 dask gateway 的配置文档中,有一个设置Adaptive period。这如何与标准dask.config变量相互作用DASK_DISTRIBUTED__ADAPTIVE__INTERVAL?一般来说,GatewaySchedulerService似乎有一个模仿某些dask.config选项的参数。

使用网关时是否使用或忽略了以下 dask 配置变量?

  • DASK_DISTRIBUTED__SCHEDULER__WORKER_TTL
  • DASK_DISTRIBUTED__ADAPTIVE__INTERVAL
  • DASK_DISTRIBUTED__ADAPTIVE__WAIT_COUNT
  • DASK_DISTRIBUTED__ADAPTIVE__TARGET_DURATION

如果使用它们,它们应该设置在哪里?在配置 yaml 处gateway.backend.scheduler.extraContainerConfig或其他地方?

0 投票
0 回答
28 浏览

dask - 使用 dask-gateway 创建新的 k8s dask 集群时配置调度程序和工作程序模板

我不清楚在使用 [dask-gateway][1] 时如何替换 dask 调度程序/工作程序模板。

背景:我之前成功配置了 dask-distributed 和 dask-kubernetes 以在提交新任务时使用以下模板:

有人可以帮助我更好地了解如何配置使用 dask-gateway 创建的调度程序和工作人员以使用上述配置吗?[1]:https ://gateway.dask.org/install-kube.html#

0 投票
1 回答
136 浏览

dask - Dask Gateway,设置工作器资源

我正在尝试根据此处的文档为工作人员设置资源,但是在使用 Dask Gateway 的设置上。具体来说,我希望能够遵循这个问题的答案,但使用 Dask Gateway。

我无法在ClusterConfig 选项中找到对工作资源的引用,我尝试了以下方法(根据这个答案),这似乎不起作用:

使用config.yamlDask Gateway 的 helm 图(理想情况下,集群选项中的一个用户可以更改的字段!)创建集群时,或者在工作人员已经启动并运行之后,如何做到这一点?

0 投票
1 回答
35 浏览

python - Dask-gateway - 向worker发送自定义python文件

我通过 Dask-gateway 在集群环境中使用 Dask。我在 Jupyter Notebook 中创建了计算图。在我的延迟函数中,它调用了在几个单独的 .py 文件中定义的多个函数。目前,我遇到了工人说找不到这些模块的错误。我猜这是因为工人无法访问那些 .py 文件。我想知道如何将这些 .py 文件“发送”给工人?

谢谢。