问题标签 [snakebite]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1226 浏览

python - 配置 SnakeBite HDFS 客户端以使用高可用性模式

我正在使用蛇咬库从我的气流 dags 访问 HDFS。

我的 HDFS 集群已升级到高可用性模式。这意味着配置为仅指向一个名称节点的客户端将在该名称节点不是活动节点时失败。

我可以使用哪些策略来使高可用性模式具有高可用性?我可以将蛇咬客户端配置为故障转移到另一个节点吗?我可以使用某种负载均衡器将流量引导到正确的名称节点吗?

0 投票
6 回答
9542 浏览

python - 如何重置 luigi 任务状态?

目前,我有一堆 luigi 任务排在一起,有一个简单的依赖链(a -> b -> c -> d)。d首先执行,a最后执行。a是被触发的任务。

除了a返回一个luigi.LocalTarget()对象之外的所有目标都具有一个泛型luigi.Parameter(),它是一个字符串(包含日期和时间)。在 luigi 中央服务器(已启用历史记录)上运行。

问题是,当我重新运行上述任务时a,luigi 检查历史记录并查看该特定任务之前是否已运行,如果它的状态为 DONE,它不会运行任务(d在这种情况下)并且我不能这样,更改字符串无济于事(向其添加了随机微秒)。如何强制运行任务?

0 投票
1 回答
261 浏览

python - 在 hdfs 中移动和合并目录

我正在更改 hdfs 目录结构。目前的情况如下:

我想摆脱客户(1-7):

我想使用蛇咬 python hdfs 库,但出现了很多边缘情况: 1. 同一日期可能不止一次出现。2. csv的名称可能出现多次,但数据不同,也必须移动。

你如何以最干净的方式实现它?

0 投票
1 回答
511 浏览

python - Python HDFS Snakebite:方法仅适用于打印

我正在使用蛇咬客户端

https://github.com/spotify/snakebite

当我尝试在 hdfs 中创建目录或移动文件时,我注意到一个奇怪的行为。这是我的代码。它所做的就是将源目录的内容移动到目标目录。最后,显示目标目录的内容

这是目的地不存在时的示例输出

奇怪的是我必须把那些打印语句放进去,否则什么都不起作用。所以

不起作用,但是

做!!!同样的

由于上述不起作用,但以下不起作用

这是一个错误吗?难道我做错了什么?

0 投票
1 回答
298 浏览

python - Snakebite HDFS touchz 不工作

我想使用snakebite检查hdfs目录中是否存在文件,如果不存在则创建。我正在关注touchz 此处的文档并像这样使用它:

但是当我去检查时,我没有看到sample.txt in remote_host:/user/test/ But I see the file when I usedhadoop fs -touchz remote_host:/user/test/sample.txt

如何使用蛇咬的touchz

0 投票
1 回答
589 浏览

python - 无法使用蛇咬获取和显示文件

我正在尝试snakebite。我启动了以下客户端:

首先,我尝试列出用户目录:

这很好用并打印了几本字典;目录中的每个项目一个。其中一项是foobar.txt我想查看的文件。为此,我相信我应该使用Client.cat

然而,这并没有奏效。我收到以下错误消息:

我做错了什么?

顺便说一句:使用PyWebHdfsClientfrompywebhdfs.webhdfs我设法通过启动具有相同地址但端口 50070 的客户端来查看文件。我不知道这是否相关。

编辑1:我也尝试使用snakebite.client.Client.text并得到同样的错误。我想这并不奇怪。

顺便说一句,文件的内容是my file is this\ntest file.

0 投票
0 回答
322 浏览

python - 在外部 .py 文件中使用第 3 方模块时出现 ModuleNotFoundError

我安装了第三方模块,它的 egg 文件是在以下路径中创建的

以下列方式在 IDLE 中导入模块时我没有收到错误

当我在具有以下几行的 HDFS.py 文件中导入相同内容时

它会导致以下堆栈错误:

sys.path 具有以下值:

作为新手,任何人都可以帮助我了解它的确切原因。

0 投票
2 回答
335 浏览

python - 如何使用snakebite python客户端访问kerberized集群

我一直在努力研究如何将必要的参数传递给蛇咬实用程序,以便它能够访问一个 kerberized 集群。我尝试在 /usr/local/etc/hadoop 路径中设置必要的 conf 目录,以及使用 kinit 初始化和获取票证。

在这方面的任何帮助或工作示例将不胜感激。

注意:我已经通过使用“hadoop”CLI 从同一台机器访问集群来测试环境设置是否正确。

0 投票
0 回答
300 浏览

python - Python API 获取 HDFS 中文件的块位置

我想获取位置,即文件块所在的数据节点。我正在使用snakebite执行快照和snapdiff 等管理操作。我想知道蛇咬中是否有 API 或任何其他 python API 可以为我提供 HDFS 中文件的块位置。通过命令行获取它们:

将是我最后的选择。

0 投票
0 回答
166 浏览

python - Snakebite 失败,客户端机制格式错误

我在气流中使用 HDFSSensor,不知何故不起作用,所以我认为蛇咬可能有问题。因此我尝试跑步

在终端中,它失败并出现错误

请求错误:javax.security.sasl.SaslException
客户端机制格式错误

从一些github帖子中,我看到该错误与调试中的以下几行有关,因此我尝试遵循包括安装一些库的解决方案,但错误保持不变:

调试:snakebite.rpc_sasl:可用的机甲:DIGEST-MD5,GSSAPI 调试:snakebite.rpc_sasl:选择的机甲:

我在 conda 环境中工作,hadoop fs -ls 工作得非常好。