“bluedata”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

152 浏览

bluedata - 如何为 Jupyterhub 创建凭据？

我在BlueData 上配置了带有 SSL 和 centos7x集群的 Spark 2.3.1 笔记本和 Jupyterhub。

当我访问 Jupyerhub 服务时，系统会提示我输入用户名和密码：

我的 BlueData 租户：

没有为 LDAP/AD 配置
已将集群超级用户权限设置为站点管理员和租户成员/管理员

如何生成用于访问 Jupyterhub 的静态用户名/密码凭据？

bluedata bluedata-3.7

2019-06-23T15:57:48.360

0 投票

1 回答

767 浏览

bluedata - 如何将 docker 参数（例如 `--cap-add=XXX`）传递给在 BlueData 中运行的 docker 实例？

我想用--cap-add=IPC_LOCK.

根据 BlueData 3.7发行说明，支持 IPC_LOCK：

HAATHI-13547：Docker 配置现在包括所有已部署容器的默认 IPC_LOCK 功能。IPC_LOCK 是某些客户应用程序所需的功能，也称为 memlock。在实例化容器时，在 docker 调用命令行上表示的 Docker 容器的允许功能现在明确包含此值。

如何将 docker 参数传递--cap-add=XXX给在 BlueData 中运行的 docker 实例？

bluedata bluedata-3.7

2019-06-24T07:45:36.583

0 投票

2 回答

107 浏览

bluedata - bdcsv.py 返回“日期时区 id '00:00' 未被识别”

我正在尝试运行bdcsv.py：

我在使用自己的开始和结束值时收到以下错误，因此对于这篇文章，我使用了BlueData 文档中示例中的开始和结束值。

运行上述返回以下错误（我已格式化 json 以使其更具可读性）：

知道这里出了什么问题吗？

bluedata bluedata-3.7

2019-07-04T18:43:13.620

0 投票

1 回答

58 浏览

bluedata - 启动 Kibana -“没有这样的容器：监控-xxxx”

我正在通过BlueData 文档启用 Kibana。

要启动 Kibana：

登录到控制器。

执行命令docker exec -it monitoring-<controller_ip> bash，其中<controller_ip>是Controller的IP地址。

...

我已经 ssh 进入我的 BlueData 控制器并运行docker exec ...命令，但是，我收到以下错误：

知道这里有什么问题吗？

注意：我的 BlueData 版本是bluedata-epic-entdoc-minimal-release-3.7-2207

bluedata bluedata-3.7

2019-07-04T19:17:27.273

0 投票

1 回答

160 浏览

bluedata-3.7 - 如何在 Cloudera 5.x 上使用 pyspark 从 DataTap 读取数据？

我创建了一个带有 Spark 选项集的 Cloudera 5.x 集群：

我想使用 PySpark 运行一个简单的测试，从一个 Datatap 读取数据并将其写入另一个 Datatap。

使用 PySpark 执行此操作的步骤是什么？

bluedata-3.7 bluedata

2019-07-12T21:00:04.520

0 投票

1 回答

153 浏览

bluedata-3.7 - 如何使用 BlueData REST API 处理会话？

我想使用 BlueData API 通过 BlueData 安装以编程方式管理。

我在这里看到了一些文档——看来我需要从获取会话开始，但我希望在获取会话之前创建一个会话。

如何创建会话并在后续操作中使用它？

bluedata-3.7 bluedata

2019-07-16T05:46:58.703

0 投票

1 回答

150 浏览

apache-spark - bluedata pyspark hdfs 写入访问问题：hdfs_access_control_exception：权限被拒绝

我们正在运行 BlueData 3.7，我使用 Spark 和 YARN 启动了 Cloudera 5.14 集群。我从 Qumulo 每个 NFS 每个 DTAP 获取一个 csv 文件到 Spark 容器中，然后只做一个小过滤器并将结果作为每个 DTAP 的 parquet 文件保存到我们的外部 HDFS Cloudera 集群中。一切正常，但将文件写入外部 HDFS 集群。我完全可以从 HDFS 读取每个 DTAP 并将每个 DTAP 写入 Qumulo NFS。只是按 DTAP 写入 HDFS 是行不通的。我收到消息说我在 EPIC 的 AD 组中的用户没有写入权限（如下图所示）。

知道为什么吗？HDFS 的 DTAP 未配置为只读。所以我希望它可以被读写。

笔记：

我已经检查了 Cloudera 中的访问权限。
我检查了 BD 集群中的 AD 凭据。
我可以从 HDFS 读取这些凭据。

这是我的代码：

错误信息：

hdfs_access_control_exception：授权被拒绝

apache-spark pyspark bluedata-3.7 bluedata

2019-07-22T08:40:01.203

0 投票

1 回答

492 浏览

lustre - 如何将 luster 文件系统客户端添加到 BlueData 容器？

我正在尝试在 BlueData 上运行的 docker 容器内设置一个光泽客户端（docs ）。

根据这篇文章，我修改了每个工作人员和控制器节点上的 BlueData 配置：

我添加了 SYS_ADMIN 功能：

并重新启动主机。

接下来，我在 BlueData 中配置了一个 Centos 7.x 集群：

CentOS 7.x 没有预先打包的应用程序或软件
图片版本：2.2
发行版 ID：bluedata/centos7

然后我 ssh 进入 Centos 容器：

在容器内，我安装了光泽客户端：

但是，当我尝试加载 luster 模块时收到错误消息：

insmod /lib/modules/3.10.0-957.21.3.el7.x86_64/kernel/crypto/crct10dif_generic.ko.xz insmod /lib/modules/3.10.0-957.21.3.el7.x86_64/kernel/lib/crc -t10dif.ko.xz modprobe：错误：无法插入“光泽”：不允许操作

我检查了内核版本：

我安装的luster版本是2.12：

更新 1

dmesg 没有显示错误：

更新 2

输出：

更新 3

我尝试安装 kmod 包而不是 dkms：

然后我又试了一次sudo strace modprobe lustre：

更新 4

运行容器--privileged解决了原来的错误，但我现在遇到了一个新错误：

更新 5

错误信息提示我需要配置网络，所以我尝试了：

光泽现在加载没有错误：

lustre bluedata-3.7 bluedata

2019-07-22T14:09:59.030

0 投票

1 回答

79 浏览

bluedata-3.7 - 如何调试“错误：无法到达工作节点。”？

我正在尝试使用 SSH 凭据在 BlueData 3.7 控制器上设置网关和工作节点。

我相信我已经满足了文档中的所有先决条件，但是，尝试在控制器 UI 的安装部分中安装网关和工作程序时出现错误：

我得到的两个主机的错误是：

错误：无法到达工作节点。

错误的 URL 是：

我检查了网关和工作人员的日志。两者都显示：

所有主机都可以在没有密码提示的情况下相互 ssh。

没有防火墙正在运行：

我在使用 tcpdump 监听工作人员时删除了工作人员：

检查控制器上的端口 46064，我可以看到它来自一个 Beam 进程，这让我确信两台机器之间的网络连接正常：

我还能做些什么来调试？

bluedata-3.7 bluedata

2019-08-16T21:15:27.413

0 投票

1 回答

86 浏览

python - 如何在 BlueData 上使用 Tensorflow 从 datatap 读取和写入？

我希望能够直接从 TensorFlow使用 BlueData 的datatap 。

使用 pyspark，我可以执行以下操作：

请注意，我不需要设置任何库 - 它已准备好开箱即用。

从 Tensorflow 通过 DataTap 读取/写入数据需要做什么？

python tensorflow bluedata

2019-11-06T21:11:13.390

问题标签 [bluedata]

Reference