问题标签 [hdfs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
6242 浏览

java - 使用 Hadoop 处理大量小文件

我正在使用 Hadoop 示例程序 WordCount 来处理大量小文件/网页(cca. 2-3 kB)。由于这与 hadoop 文件的最佳文件大小相去甚远,因此程序非常慢。我想这是因为设置和撕裂工作的成本远高于工作本身。这样的小文件也会导致文件名的命名空间耗尽。

我读到在这种情况下我应该使用 HDFS 存档(HAR),但我不确定如何修改这个程序 WordCount 以从这个存档中读取。程序可以在不修改或需要修改的情况下继续工作吗?

即使我在档案中打包了很多文件,问题仍然存在,这是否会提高性能。我读到即使我打包多个文件,一个存档中的这些文件也不会被一个映射器处理,而是很多,在我的情况下(我猜)不会提高性能。

如果这个问题太简单,请理解我是 Hadoop 新手,对它的经验很少。

0 投票
1 回答
303 浏览

bash - 如何调整 bin/hdfs 以从 $HADOOP_HOME/bin 外部执行?

我正在尝试修改hdfs脚本,以便它仍然可以运行,尽管不再位于 $HADOOP_HOME/bin 中,但是当我执行修改后的 hdfs 时,我得到:

第 110 行是:

我已经突出显示了我对脚本所做的更改:

-

0 投票
3 回答
7207 浏览

hadoop - 如何获取数据节点超时?

我有一个 3 节点 hadoop 设置,复制因子为 2。

当我的一个数据节点死亡时,namenode 会等待 10 分钟,然后再将其从活动节点中删除。直到那时我的 hdfs 写入失败,说来自节点的错误 ack。

有没有办法设置一个较小的超时时间(比如 1 分钟),以便立即丢弃 datanode 死亡的节点?

0 投票
1 回答
147 浏览

hbase - 在不增加更多hdfs服务器的情况下增加更多hbase服务器是否有益?

我正在使用 Eucalyptus,并且正在考虑将 hdfs 和 hbase 放在我们的节点控制器上。在我们的一些实例上运行 hbase 会提高性能,还是多余的?

0 投票
2 回答
2649 浏览

hadoop - 输入格式是否负责在 Hadoop 的 MapReduce 中实现数据局部性?

我试图了解与 Hadoop 的 Map/Reduce 框架相关的数据局部性。特别是我试图了解哪个组件处理数据局部性(即它是输入格式吗?)

雅虎的开发者网络页面指出“Hadoop 框架然后使用来自分布式文件系统的知识将这些进程安排在靠近数据/记录位置的位置。” 这似乎意味着 HDFS 输入格式可能会查询名称节点以确定哪些节点包含所需的数据,并在可能的情况下在这些节点上启动映射任务。可以想象,HBase 也可以采用类似的方法,通过查询来确定哪些区域正在为某些记录提供服务。

如果开发人员编写自己的输入格式,他们会负责实现数据局部性吗?

0 投票
2 回答
2123 浏览

hadoop - 如何在 HDFS 中仅保存非空减速器的输出

在我的应用程序中,reducer 将所有部分文件保存在 HDFS 中,但我希望只有 reducer 会写入大小不是 0 字节的部分文件。请让我知道如何定义它。

0 投票
3 回答
5588 浏览

hadoop - HadoopFS (HDFS) 作为分布式文件存储

我正在考虑使用 HDFS 作为我们客户端视频托管服务的水平扩展文件存储系统。我主要担心 HDFS 不是为此需求而开发的,这更像是“当前在需要处理大量数据的情况下使用的开源系统”。我们不想处理数据只是存储它们,在 HDFS 的基础上创建类似于小型内部 Amazon S3 模拟的东西。

可能重要的时刻是存储的文件大小将从 100Mb 到 10Gb 相当 git。

有没有人将 HDFS 用于此类目的?

0 投票
1 回答
857 浏览

hadoop - Hadoop fully distributed mode

I am a newbie to Hadoop. I have managed to develop a simple Map/Reduce application that works fine in 'pseudo distributed mode'.I want to test that in 'fully distributed mode'. I have few questions regarding that;

  1. How many machines(nodes) do I need (minimum & recommended) for processing a file size of 1-10GB?
  2. what are the hardware requirements(mainly, I want to know the # of cores, Memory space and disk space)?
0 投票
1 回答
4872 浏览

junit - Hadoop JUnit 测试向/从 hdfs 写入/读取

我写了一个从 hdfs 写入和读取的类。给定在这些类被实例化时发生的某些条件,它们创建一个特定的路径和文件,并写入它(或者它们转到先前创建的路径和文件并从中读取)。我已经通过运行一些 hadoop 作业对其进行了测试,它似乎运行正常。

但是,我希望能够在 JUnit 框架中对此进行测试,但是我还没有找到能够在 JUnit 中测试对 hdfs 的读写的好的解决方案。我将不胜感激有关此事的有用建议。谢谢。

0 投票
1 回答
424 浏览

hadoop - Cloudera Mountable HDFS 是否提供去重

查看运行基于 HDFS 的存储集群,并查看通过 Cloudera 版本使用 Mountable HDFS 系统的简单方法。

我要问的第一个问题是这会提供自动重复数据删除吗?

我问的第二个问题是否会执行重复数据删除,当所有用户删除包含某个重复数据删除块的文件时,它实际上是从存储中删除该块还是仅删除该用户的索引/引用?

最后,这种方法是否包括 Rainstor 压缩方法?

感谢您的输入