问题标签 [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
compression - 为什么 hadoop 不能拆分大文本文件,然后使用 gzip 压缩拆分?
我最近一直在研究 hadoop 和 HDFS。当您将文件加载到 HDFS 中时,它通常会将文件拆分为 64MB 的块并将这些块分布在您的集群中。除非它不能对 gzip 文件执行此操作,因为 gzip 文件无法拆分。我完全理解为什么会这样(我不需要任何人解释为什么不能拆分 gzip 文件)。但是为什么 HDFS 不能将纯文本文件作为输入并像平常一样拆分它,然后分别使用 gzip 压缩每个拆分?当访问任何拆分时,它只是在运行中解压缩。
在我的场景中,每个拆分都是完全独立压缩的。拆分之间没有依赖关系,因此您不需要整个原始文件来解压缩任何一个拆分。这就是这个补丁所采用的方法:https ://issues.apache.org/jira/browse/HADOOP-7076 ,请注意这不是我想要的。
这似乎很基本......我错过了什么?为什么不能这样做?或者如果可以做到,hadoop 开发人员为什么不看这条路呢?考虑到我发现有多少关于人们想要在 HDFS 中拆分 gzip 文件的讨论,这似乎很奇怪。
indexing - 索引 HDFS 序列文件
索引非常大的序列文件的最佳库/方法是什么(数百万个键/值对,其中每个值可以具有不同的长度,因此您不能使用随机访问方案)?
hadoop - sqoop 导入完成但配置单元显示表看不到表
安装 hadoop, hive (CDH 版本) 后我执行
一切正常,但是当我进入 hive 命令行并执行 show tables 时,什么都没有。我使用 ./hadoop fs -ls,我可以看到 /user/(username)/user 存在。
任何帮助表示赞赏。
- -编辑 - - - - - -
导入失败的原因:
hadoop - 按现有字段分区 Hive 表?
我可以在插入现有字段时对 Hive 表进行分区吗?
我有一个 10 GB 的文件,其中包含一个日期字段和一个小时字段。我可以将此文件加载到表中,然后插入覆盖到另一个使用这些字段作为分区的分区表中吗?会像以下工作吗?
谢谢!
特拉维斯
ant - 尝试使用 Fuse 挂载 HDFS。无法编译 libhdfs
我正在尝试编译 libhdfs(一个允许外部应用程序与 hdfs 交互的本机共享库)。这是我使用 Fuse 安装 Hadoop 的 hdfs 所必须采取的几个步骤之一。
编译似乎有一段时间进展顺利,但以“BUILD FAILED”和以下问题总结结束 -
commons-logging#commons-logging;1.0.4:在 commons-logging#commons-logging 中找不到配置;1.0.4:'master'。org.apache.hadoop#Hadoop;working@btsotbal800 commons-logging 需要它
log4j#log4j;1.2.15: 在 log4j#log4j;1.2.15: 'master' 中找不到配置。org.apache.hadoop#Hadoop;working@btsotbal800 log4j 需要它
现在,我有几个关于这个的问题,因为我用来做这件事的书没有详细说明这些事情到底是什么。
- Hadoop 使用 commons-logging 和 log4j 库吗?
- 这些库似乎位于 $HADOOP_HOME/lib 中。它们虽然是 jar 文件。我应该提取它们,尝试更改一些配置,然后将它们重新打包回罐子中吗?
- 上述错误中的“大师”是什么意思?有不同版本的库吗?
提前感谢您提供的任何见解。
nosql - 用于文件 I/O 的 Hbase。以及在远程客户端上连接 HDFS 的方法
请注意,在您阅读之前,我的英语并不流利。我是 NoSQL 的新手,现在尝试使用 HBase 进行文件存储。- 我会将文件作为二进制文件存储在 HBase 中。我不需要任何统计数据。只有我需要的是文件存储。是否推荐!?!?
我担心 I/O 速度。
实际上,因为我找不到任何方法可以将 HDFS 与 hadoop 连接起来,所以我想尝试使用 HBase 进行文件存储。我无法在客户端计算机上设置 Hadoop。我试图找到一些库——比如用于 RDBMS 的 JDBC——它们可以帮助客户端连接 HDFS 以获取文件。但我找不到任何东西,只是选择了 HBase 而不是连接库。
我可以从某人那里得到任何帮助吗?
java - 在 $HADOOP_HOME 之外运行 Java 程序(使用 HDFS JAVA API)
我有一个简单的 Java 程序,它只是读取一些文本并将其写入 HDFS 上的文件。我使用hadoop HDFSReadWrite text运行它。
我想从 eclipse 或任何其他 java 程序中运行它,并且仍然能够在 Hadoop 环境之外使用 HDFS。有没有办法做到这一点?我需要它真的很糟糕。
hadoop - 'hadoop fs -tail -f' 的编程等效项
我想使用org.apache.hadoop.fs.FileSystem
API 以编程方式跟踪 hdfs 文件。有没有办法以等同于hadoop fs -tail -f
命令的方式使用 API 来跟踪文件?
hadoop - hive/hadoop 如何确保每个映射器都处理它的本地数据?
困扰我的2个基本问题:
- 我如何确定 hive 用于存储我的表的 32 个文件中的每一个都位于其唯一的机器上?
- 如果发生这种情况,我如何确定如果 hive 创建了 32 个映射器,它们中的每一个都将处理其本地数据?hadoop/hdfs 是否保证了这种魔力,或者作为智能应用程序的 hive 是否确保它会发生?
背景:我有一个由 32 台机器组成的蜂巢集群,并且:
- 我所有的表都是用
"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
- 我用
hive.enforce.bucketing = true;
- 我验证并且确实每个表都存储为用户/配置单元/仓库中的 32 个文件
- 我使用的 HDFS 复制因子为 2
谢谢!