问题标签 [bluedata]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
152 浏览

bluedata - 如何为 Jupyterhub 创建凭据?

我在BlueData 上配置了带有 SSL 和 centos7x集群的 Spark 2.3.1 笔记本和 Jupyterhub。

当我访问 Jupyerhub 服务时,系统会提示我输入用户名和密码:

Jupyterhub 的凭据

我的 BlueData 租户:

  • 没有为 LDAP/AD 配置
  • 已将集群超级用户权限设置为站点管理员和租户成员/管理员

如何生成用于访问 Jupyterhub 的静态用户名/密码凭据?

0 投票
1 回答
767 浏览

bluedata - 如何将 docker 参数(例如 `--cap-add=XXX`)传递给在 BlueData 中运行的 docker 实例?

我想用--cap-add=IPC_LOCK.

根据 BlueData 3.7发行说明,支持 IPC_LOCK:

HAATHI-13547:Docker 配置现在包括所有已部署容器的默认 IPC_LOCK 功能。IPC_LOCK 是某些客户应用程序所需的功能,也称为 memlock。在实例化容器时,在 docker 调用命令行上表示的 Docker 容器的允许功能现在明确包含此值。

如何将 docker 参数传递--cap-add=XXX给在 BlueData 中运行的 docker 实例?

0 投票
2 回答
107 浏览

bluedata - bdcsv.py 返回“日期时区 id '00:00' 未被识别”

我正在尝试运行bdcsv.py

我在使用自己的开始和结束值时收到以下错误,因此对于这篇文章,我使用了BlueData 文档中示例中的开始和结束值。

运行上述返回以下错误(我已格式化 json 以使其更具可读性):

知道这里出了什么问题吗?

0 投票
1 回答
58 浏览

bluedata - 启动 Kibana -“没有这样的容器:监控-xxxx”

我正在通过BlueData 文档启用 Kibana。

要启动 Kibana:

  1. 登录到控制器。
  2. 执行命令docker exec -it monitoring-<controller_ip> bash,其中<controller_ip>是Controller的IP地址。
  3. ...

我已经 ssh 进入我的 BlueData 控制器并运行docker exec ...命令,但是,我收到以下错误:

知道这里有什么问题吗?


注意:我的 BlueData 版本是bluedata-epic-entdoc-minimal-release-3.7-2207

0 投票
1 回答
160 浏览

bluedata-3.7 - 如何在 Cloudera 5.x 上使用 pyspark 从 DataTap 读取数据?

我创建了一个带有 Spark 选项集的 Cloudera 5.x 集群:

在此处输入图像描述

我想使用 PySpark 运行一个简单的测试,从一个 Datatap 读取数据并将其写入另一个 Datatap。

使用 PySpark 执行此操作的步骤是什么?

0 投票
1 回答
153 浏览

bluedata-3.7 - 如何使用 BlueData REST API 处理会话?

我想使用 BlueData API 通过 BlueData 安装以编程方式管理。

我在这里看到了一些文档——看来我需要从获取会话开始,但我希望在获取会话之前创建一个会话。

如何创建会话并在后续操作中使用它?

0 投票
1 回答
150 浏览

apache-spark - bluedata pyspark hdfs 写入访问问题:hdfs_access_control_exception:权限被拒绝

我们正在运行 BlueData 3.7,我使用 Spark 和 YARN 启动了 Cloudera 5.14 集群。我从 Qumulo 每个 NFS 每个 DTAP 获取一个 csv 文件到 Spark 容器中,然后只做一个小过滤器并将结果作为每个 DTAP 的 parquet 文件保存到我们的外部 HDFS Cloudera 集群中。一切正常,但将文件写入外部 HDFS 集群。我完全可以从 HDFS 读取每个 DTAP 并将每个 DTAP 写入 Qumulo NFS。只是按 DTAP 写入 HDFS 是行不通的。我收到消息说我在 EPIC 的 AD 组中的用户没有写入权限(如下图所示)。

知道为什么吗?HDFS 的 DTAP 未配置为只读。所以我希望它可以被读写。

笔记:

  • 我已经检查了 Cloudera 中的访问权限。
  • 我检查了 BD 集群中的 AD 凭据。
  • 我可以从 HDFS 读取这些凭据。

这是我的代码:

错误信息:

hdfs_access_control_exception:授权被拒绝

在此处输入图像描述

0 投票
1 回答
492 浏览

lustre - 如何将 luster 文件系统客户端添加到 BlueData 容器?

我正在尝试在 BlueData 上运行的 docker 容器内设置一个光泽客户端(docs )。

根据这篇文章,我修改了每个工作人员和控制器节点上的 BlueData 配置:

我添加了 SYS_ADMIN 功能:

并重新启动主机。

接下来,我在 BlueData 中配置了一个 Centos 7.x 集群:

  • CentOS 7.x 没有预先打包的应用程序或软件
  • 图片版本:2.2
  • 发行版 ID:bluedata/centos7

然后我 ssh 进入 Centos 容器:

在容器内,我安装了光泽客户端:

但是,当我尝试加载 luster 模块时收到错误消息:

insmod /lib/modules/3.10.0-957.21.3.el7.x86_64/kernel/crypto/crct10dif_generic.ko.xz insmod /lib/modules/3.10.0-957.21.3.el7.x86_64/kernel/lib/crc -t10dif.ko.xz modprobe:错误:无法插入“光泽”:不允许操作

我检查了内核版本:

我安装的luster版本是2.12:


更新 1

dmesg 没有显示错误:


更新 2

输出:


更新 3

我尝试安装 kmod 包而不是 dkms:

然后我又试了一次sudo strace modprobe lustre


更新 4

运行容器--privileged解决了原来的错误,但我现在遇到了一个新错误:


更新 5

错误信息提示我需要配置网络,所以我尝试了:

光泽现在加载没有错误:

0 投票
1 回答
79 浏览

bluedata-3.7 - 如何调试“错误:无法到达工作节点。”?

我正在尝试使用 SSH 凭据在 BlueData 3.7 控制器上设置网关和工作节点。

我相信我已经满足了文档中的所有先决条件,但是,尝试在控制器 UI 的安装部分中安装网关和工作程序时出现错误:

我得到的两个主机的错误是:

错误:无法到达工作节点。

错误的 URL 是:

我检查了网关和工作人员的日志。两者都显示:

所有主机都可以在没有密码提示的情况下相互 ssh。

没有防火墙正在运行:

我在使用 tcpdump 监听工作人员时删除了工作人员:

检查控制器上的端口 46064,我可以看到它来自一个 Beam 进程,这让我确信两台机器之间的网络连接正常:

我还能做些什么来调试?

0 投票
1 回答
86 浏览

python - 如何在 BlueData 上使用 Tensorflow 从 datatap 读取和写入?

我希望能够直接从 TensorFlow使用 BlueData 的datatap 。

使用 pyspark,我可以执行以下操作:

请注意,我不需要设置任何库 - 它已准备好开箱即用。

从 Tensorflow 通过 DataTap 读取/写入数据需要做什么?