问题标签 [hdfs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1499 浏览

hadoop - hadoop/pig导入日志的多级目录

我们将日志存储在 S3 中,我们的一个(Pig)查询将获取三种不同的日志类型。每个日志类型都在基于类型/日期的子目录集中。例如:

我的查询想要在一段时间内加载所有三种类型的日志。例如:

然后我的查询将针对所有这些日志运行。

处理此问题的最有效方法是什么?

  1. 我们需要使用 bash 脚本扩展吗?不确定这是否适用于多目录,我怀疑如果有 10k 日志要加载,它是否有效(甚至可能)。
  2. 我们是否创建一个服务来聚合所有日志并将它们直接推送到 hdfs?
  3. 自定义 java/python 导入器?
  4. 其他想法?

如果您也可以留下一些示例代码(如果合适的话),那将很有帮助。

谢谢

0 投票
1 回答
3282 浏览

hadoop - 如何判断 hadoop namenode 是否已被格式化?

第一次配置我的hadoop namenode时,我知道我需要运行

但是在将数据加载到 HDFS 后再次运行此程序,将清除所有内容并重新格式化。有没有一种简单的方法来判断一个名称节点是否已经被格式化?

0 投票
1 回答
3253 浏览

hadoop - HDFS 说文件仍然打开,但是写入它的进程被杀死

我是 hadoop 的新手,过去几个小时我一直在尝试用谷歌搜索这个问题,但我找不到任何有用的东西。我的问题是 HDFS 说文件仍然打开,即使写入它的进程已经死了。这使得无法从文件中读取。

我在目录上运行 fsck,它报告一切正常。但是,当我运行“hadoop fsck -fs hdfs://hadoop /logs/raw/directory_containing_file -openforwrite”时,我得到了

对 openforwrite 的文件再次执行 fsck 命令,我得到

有谁知道发生了什么以及我该如何解决?

0 投票
1 回答
3288 浏览

hadoop - 如何解决此 Hadoop 文件系统安装错误?

我正在尝试在非 Cloudera Ubuntu 测试映像上安装 Hadoop。在我跑步之前,一切似乎都很顺利./bin/start-all.sh。名称节点永远不会出现,所以我什至无法运行 ahadoop fs -ls来连接到文件系统。

这是名称节点日志:

我已经chmod -R 755在根目录上,甚至通过使用mkdir -p.

这是我的/conf/hdfs-site.xml

0 投票
3 回答
537 浏览

hadoop - HBase/HDFS 部署对 100mbit/s 网络接口有意义吗?

我猜想 100Mbit/s 的网络接口将成为 HDFS 的瓶颈,并减慢 HBase 的速度(最大压缩速度约为 10MB/s 等)。这种部署有意义吗?

我在想“现在”当 SSD 进入游戏时,即使 1Gbit/s 的网络接口仍然可能是瓶颈,所以也许永远不应该考虑构建一个 100Mbit/s 的集群(即使对于 HDD)?

0 投票
1 回答
59 浏览

bash - 如何存储 /*url* 的实际名称?

我正在将脚本转换为 HDFS (Hadoop),并且我有这个 cmd:

使用 HDFS,我需要使用 -get 获取文件,这很有效。

但是我不知道下载的文件名是什么,更不用说我想存储在 $local_seedsDir/ url中了。我可以知道吗?

亲吻告诉我:

即只需在本地将文件命名为 url。

0 投票
5 回答
3915 浏览

hadoop - hadoop NullPointerException

我正在尝试使用两台计算机以 hadoop michael-noll 的方式设置多节点集群。

当我尝试格式化 hdfs 时,它显示了一个NullPointerException.

我不知道是什么原因造成的。请帮我找出问题所在。我不是该主题的新手,因此请尽可能减少您的回答的技术含量。:)

如果需要更多信息,请告诉我。

0 投票
3 回答
14711 浏览

hadoop - Hadoop HDFS 最大文件大小

我的一位同事认为 HDFS 没有最大文件大小,即通过分区为 128 / 256 meg 块可以存储任何文件大小(显然 HDFS 磁盘有大小限制,但这是唯一的限制)。我找不到任何说有限制的东西,所以她是对的吗?

谢谢,吉姆

0 投票
4 回答
27870 浏览

java - 使用 Java API 在 Hadoop 中移动文件?

我想使用 Java API 在 HDFS 中移动文件。我想不出办法来做到这一点。FileSystem 类似乎只允许进出本地文件系统。但我想将它们保存在 HDFS 中并将它们移到那里。

我错过了一些基本的东西吗?我能想到的唯一方法是从输入流中读取它并将其写回......然后删除旧副本(糟糕)。

谢谢

0 投票
2 回答
1637 浏览

hadoop - 如何使 HDFS 上的平面文件与大型数据库表保持同步?

保持 HDFS 上的平面文件与可能具有行更新的大型数据库表同步的最佳方法是什么?

sqoop 之类的工具似乎很有用,因为它们允许从表中增量提取新行,但是我看不到处理行更新的简单方法。

我们可以使用哪些技术来有效地处理行更新?每晚倾倒整张桌子是我们宁愿避免的。