问题标签 [hdfs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
992 浏览

hadoop - Hadoop DFS 指向当前目录

几个月前,我们在本地机器上安装了 CLoudera Hadoop 3,一切都很好。最近我们还安装了 Whirr 以开始使用集群。虽然我们遇到了一些问题,但过了一会儿,我们可以启动一个集群,登录到它的主节点并开始工作。但是,我最近发现当我输入时:

hadoop dfs -ls

进入我们的本地机器,它现在显示我所在的当前目录中的所有内容,而不是 DFS 的内容。这种情况过去并没有发生,所以我们认为在安装 Whirr 时有些事情搞砸了。

是什么导致了这种情况,更重要的是,我们如何才能让我们的本地 hadoop dfs 指向正确的位置?

0 投票
4 回答
1361 浏览

hadoop - 对 hbase/hdfs 的商业支持

我知道 cloudera 处于为 hadoop/hbase/hdfs 提供商业支持的最前沿。有没有其他供应商提供这个?

-钦梅

0 投票
4 回答
508 浏览

hadoop - HDFS 上的文件块

Hadoop 是否保证来自同一文件的不同块将存储在集群中的不同机器上?显然复制的块将在不同的机器上。

0 投票
1 回答
1811 浏览

hadoop - 在伪分布式hadoop模式下管理hdfs

我想在我的四核机器上用 hadoop 和 mahout 做一些计算,所以我在伪分布式模式下使用 hadoop。

问题是我的根驱动器上的空间是有限的,所以我该如何配置它以使用其他外部硬盘驱动器上的可用空间。

0 投票
1 回答
915 浏览

hadoop - Hadoop、硬件和生物信息学

我们即将购买新硬件来运行我们的分析,并且想知道我们是否做出了正确的决定。

设置:
我们是一个处理 DNA 测序数据的生物信息学实验室。我们领域最大的问题是数据量,而不是计算。单个实验将很快进入 10-100 Gb,我们通常会同时运行不同的实验。显然,mapreduce 方法很有趣(另请参阅http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html),但并非我们所有的软件都使用该范例。此外,一些软件使用 ascii 文件作为输入/输出,而其他软件使用二进制文件。

我们可能会购买什么:我们可能购买
的机器将是一台具有 32 核和 192Gb 内存的服务器,连接到 NAS 存储 (>20Tb)。对于我们的许多(非 mapreduce)应用程序来说,这似乎是一个非常有趣的设置,但是这样的配置会阻止我们以有意义的方式实现 hadoop/mapreduce/hdfs 吗?

非常感谢,
简。

0 投票
2 回答
2687 浏览

hadoop - 如何在非 Java 客户端中从 HDFS 读取文件

因此,我的 MR Job 生成了一个报告文件,该文件需要能够由最终用户下载,该最终用户需要在正常的 Web 报告界面上单击一个按钮,并让它下载输出。根据这 O'Reilly 的书摘,有一个 HTTP 只读接口。它说它是基于 XML 的,但它似乎只是旨在通过 Web 浏览器查看的普通 Web 界面,而不是可以以编程方式查询、列出和下载的东西。我唯一的办法是编写自己的基于 servlet 的界面吗?还是执行hadoop cli工具?

0 投票
12 回答
148104 浏览

hadoop - Hive 在 HDFS 中将文件存储在哪里?

我想知道如何找到 Hive 表和它们所代表的实际 HDFS 文件(或者更确切地说是目录)之间的映射。我需要直接访问表文件。

Hive 将其文件存储在 HDFS 的什么位置?

0 投票
4 回答
14601 浏览

hadoop - 如何确保数据在 hadoop 节点上均匀分布?

如果我将数据从本地系统复制到 HDFS,我可以确定它在节点之间均匀分布吗?

PS HDFS 保证每个块将存储在 3 个不同的节点上。但这是否意味着我的所有文件块都将在相同的 3 个节点上排序?还是 HDFS 会为每个新块随机选择它们?

0 投票
2 回答
758 浏览

java - 将文件位置作为值传递给hadoop映射器?

是否可以将 HDFS 中文件的位置作为值传递给我的映射器,以便我可以在它们上运行可执行文件来处理它们?

0 投票
2 回答
4038 浏览

hadoop - Hadoop 用于处理非常大的二进制文件

我有一个我希望分发的系统,我希望在其中以分布式方式处理许多非常大的不可拆分的二进制文件。这些是几百 Gb 的数量级。由于各种固定的、特定于实现的原因,这些文件不能并行处理,而必须由同一进程按顺序处理直到结束。

该应用程序是用 C++ 开发的,所以我会考虑使用 Hadoop 管道将数据流进和流出。每个实例都需要按顺序处理 100Gb 到 200Gb 的数据(当前存储在一个文件中),并且应用程序当前(可能)受到 IO 限制,因此每个作业都完全在本地运行非常重要。

我非常热衷于 HDFS 来托管这些数据——自动维护冗余副本和在添加新节点时重新平衡的能力将非常有用。我也热衷于 map reduce,因为它计算简单,并且要求尽可能靠近数据托管计算。但是,我想知道 Hadoop 是否适合这个特定的应用程序。

我知道,为了表示我的数据,可以生成不可拆分的文件,或者生成巨大的序列文件(在我的情况下,单个文件的大小约为 10Tb - 如果我将所有数据打包到一)。因此可以使用 Hadoop 处理我的数据。然而,我的模型似乎不太适合 Hadoop:社区是否同意?或者有建议以最佳方式布置这些数据?甚至对于可能更适合该模型的其他集群计算系统?

这个问题可能是 hadoop 上现有问题的重复,但除了我的系统需要每个单个文件一个数量级或两个以上的数据之外(以前我已经看到有关几个 Gb 大小的单个文件的问题) . 因此,请原谅我之前已经回答过这个问题 - 即使对于这种大小的数据也是如此。

谢谢,

亚历克斯