问题标签 [hdfs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5607 浏览

compression - 为什么 hadoop 不能拆分大文本文件,然后使用 gzip 压缩拆分?

我最近一直在研究 hadoop 和 HDFS。当您将文件加载到 HDFS 中时,它通常会将文件拆分为 64MB 的块并将这些块分布在您的集群中。除非它不能对 gzip 文件执行此操作,因为 gzip 文件无法拆分。我完全理解为什么会这样(我不需要任何人解释为什么不能拆分 gzip 文件)。但是为什么 HDFS 不能将纯文本文件作为输入并像平常一样拆分它,然后分别使用 gzip 压缩每个拆分?当访问任何拆分时,它只是在运行中解压缩。

在我的场景中,每个拆分都是完全独立压缩的。拆分之间没有依赖关系,因此您不需要整个原始文件来解压缩任何一个拆分。这就是这个补丁所采用的方法:https ://issues.apache.org/jira/browse/HADOOP-7076 ,请注意这不是我想要的。

这似乎很基本......我错过了什么?为什么不能这样做?或者如果可以做到,hadoop 开发人员为什么不看这条路呢?考虑到我发现有多少关于人们想要在 HDFS 中拆分 gzip 文件的讨论,这似乎很奇怪。

0 投票
1 回答
792 浏览

indexing - 索引 HDFS 序列文件

索引非常大的序列文件的最佳库/方法是什么(数百万个键/值对,其中每个值可以具有不同的长度,因此您不能使用随机访问方案)?

0 投票
7 回答
11107 浏览

hadoop - sqoop 导入完成但配置单元显示表看不到表

安装 hadoop, hive (CDH 版本) 后我执行

一切正常,但是当我进入 hive 命令行并执行 show tables 时,什么都没有。我使用 ./hadoop fs -ls,我可以看到 /user/(username)/user 存在。

任何帮助表示赞赏。

- -编辑 - - - - - -

导入失败的原因:

0 投票
4 回答
10882 浏览

hadoop - 按现有字段分区 Hive 表?

我可以在插入现有字段时对 Hive 表进行分区吗?

我有一个 10 GB 的文件,其中包含一个日期字段和一个小时字段。我可以将此文件加载到表中,然后插入覆盖到另一个使用这些字段作为分区的分区表中吗?会像以下工作吗?

谢谢!

特拉维斯

0 投票
1 回答
1278 浏览

ant - 尝试使用 Fuse 挂载 HDFS。无法编译 libhdfs

我正在尝试编译 libhdfs(一个允许外部应用程序与 hdfs 交互的本机共享库)。这是我使用 Fuse 安装 Hadoop 的 hdfs 所必须采取的几个步骤之一。

编译似乎有一段时间进展顺利,但以“BUILD FAILED”和以下问题总结结束 -

commons-logging#commons-logging;1.0.4:在 commons-logging#commons-logging 中找不到配置;1.0.4:'master'。org.apache.hadoop#Hadoop;working@btsotbal800 commons-logging 需要它

log4j#log4j;1.2.15: 在 log4j#log4j;1.2.15: 'master' 中找不到配置。org.apache.hadoop#Hadoop;working@btsotbal800 log4j 需要它

现在,我有几个关于这个的问题,因为我用来做这件事的书没有详细说明这些事情到底是什么。

  1. Hadoop 使用 commons-logging 和 log4j 库吗?
  2. 这些库似乎位于 $HADOOP_HOME/lib 中。它们虽然是 jar 文件。我应该提取它们,尝试更改一些配置,然后将它们重新打包回罐子中吗?
  3. 上述错误中的“大师”是什么意思?有不同版本的库吗?

提前感谢您提供的任何见解。

0 投票
3 回答
518 浏览

nosql - NoSQL 上的文件 I/O - 尤其是 HBase - 是否推荐?或不?

我是 NoSQL 的新手,现在我正在尝试使用HBase进行文件存储。我会将文件作为二进制文件存储在 HBase 中。

我不需要任何统计数据,只需要文件存储。

是否推荐?我担心 I/O 速度。

我使用 HBase 作为存储的原因是我必须使用HDFS,但我无法在客户端计算机上构建 Hadoop。正因为如此,我试图找到一些帮助客户端连接到 HDFS 以获取文件的库。但是没找到,只好选择了HBase而不是连接库。

在这种情况下,我该怎么办?

0 投票
1 回答
496 浏览

nosql - 用于文件 I/O 的 Hbase。以及在远程客户端上连接 HDFS 的方法

请注意,在您阅读之前,我的英语并不流利。我是 NoSQL 的新手,现在尝试使用 HBase 进行文件存储。- 我会将文件作为二进制文件存储在 HBase 中。我不需要任何统计数据。只有我需要的是文件存储。是否推荐!?!?

我担心 I/O 速度。

实际上,因为我找不到任何方法可以将 HDFS 与 hadoop 连接起来,所以我想尝试使用 HBase 进行文件存储。我无法在客户端计算机上设置 Hadoop。我试图找到一些库——比如用于 RDBMS 的 JDBC——它们可以帮助客户端连接 HDFS 以获取文件。但我找不到任何东西,只是选择了 HBase 而不是连接库。

我可以从某人那里得到任何帮助吗?

0 投票
1 回答
1368 浏览

java - 在 $HADOOP_HOME 之外运行 Java 程序(使用 HDFS JAVA API)

我有一个简单的 Java 程序,它只是读取一些文本并将其写入 HDFS 上的文件。我使用hadoop HDFSReadWrite text运行它。

我想从 eclipse 或任何其他 java 程序中运行它,并且仍然能够在 Hadoop 环境之外使用 HDFS。有没有办法做到这一点?我需要它真的很糟糕。

0 投票
1 回答
1623 浏览

hadoop - 'hadoop fs -tail -f' 的编程等效项

我想使用org.apache.hadoop.fs.FileSystemAPI 以编程方式跟踪 hdfs 文件。有没有办法以等同于hadoop fs -tail -f命令的方式使用 API 来跟踪文件?

0 投票
2 回答
1755 浏览

hadoop - hive/hadoop 如何确保每个映射器都处理它的本地数据?

困扰我的2个基本问题:

  • 我如何确定 hive 用于存储我的表的 32 个文件中的每一个都位于其唯一的机器上?
  • 如果发生这种情况,我如何确定如果 hive 创建了 32 个映射器,它们中的每一个都将处理其本地数据?hadoop/hdfs 是否保证了这种魔力,或者作为智能应用程序的 hive 是否确保它会发生?

背景:我有一个由 32 台机器组成的蜂巢集群,并且:

  • 我所有的表都是用"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
  • 我用hive.enforce.bucketing = true;
  • 我验证并且确实每个表都存储为用户/配置单元/仓库中的 32 个文件
  • 我使用的 HDFS 复制因子为 2

谢谢!