“hdfs”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

5607 浏览

compression - 为什么 hadoop 不能拆分大文本文件，然后使用 gzip 压缩拆分？

我最近一直在研究 hadoop 和 HDFS。当您将文件加载到 HDFS 中时，它通常会将文件拆分为 64MB 的块并将这些块分布在您的集群中。除非它不能对 gzip 文件执行此操作，因为 gzip 文件无法拆分。我完全理解为什么会这样（我不需要任何人解释为什么不能拆分 gzip 文件）。但是为什么 HDFS 不能将纯文本文件作为输入并像平常一样拆分它，然后分别使用 gzip 压缩每个拆分？当访问任何拆分时，它只是在运行中解压缩。

在我的场景中，每个拆分都是完全独立压缩的。拆分之间没有依赖关系，因此您不需要整个原始文件来解压缩任何一个拆分。这就是这个补丁所采用的方法：https ://issues.apache.org/jira/browse/HADOOP-7076 ，请注意这不是我想要的。

这似乎很基本......我错过了什么？为什么不能这样做？或者如果可以做到，hadoop 开发人员为什么不看这条路呢？考虑到我发现有多少关于人们想要在 HDFS 中拆分 gzip 文件的讨论，这似乎很奇怪。

2011-06-28T18:20:46.867

0 投票

1 回答

792 浏览

indexing - 索引 HDFS 序列文件

索引非常大的序列文件的最佳库/方法是什么（数百万个键/值对，其中每个值可以具有不同的长度，因此您不能使用随机访问方案）？

indexing hadoop sequence hdfs

user400055

2011-06-30T15:44:20.933

0 投票

7 回答

11107 浏览

hadoop - sqoop 导入完成但配置单元显示表看不到表

安装 hadoop, hive (CDH 版本) 后我执行

一切正常，但是当我进入 hive 命令行并执行 show tables 时，什么都没有。我使用 ./hadoop fs -ls，我可以看到 /user/(username)/user 存在。

任何帮助表示赞赏。

- -编辑 - - - - - -

导入失败的原因：

hadoop hive hdfs sqoop

2011-07-01T12:44:19.623

0 投票

4 回答

10882 浏览

hadoop - 按现有字段分区 Hive 表？

我可以在插入现有字段时对 Hive 表进行分区吗？

我有一个 10 GB 的文件，其中包含一个日期字段和一个小时字段。我可以将此文件加载到表中，然后插入覆盖到另一个使用这些字段作为分区的分区表中吗？会像以下工作吗？

谢谢！

特拉维斯

hadoop hive partitioning hdfs database-partitioning

2011-07-08T23:07:56.117

0 投票

1 回答

1278 浏览

ant - 尝试使用 Fuse 挂载 HDFS。无法编译 libhdfs

我正在尝试编译 libhdfs（一个允许外部应用程序与 hdfs 交互的本机共享库）。这是我使用 Fuse 安装 Hadoop 的 hdfs 所必须采取的几个步骤之一。

编译似乎有一段时间进展顺利，但以“BUILD FAILED”和以下问题总结结束 -

commons-logging#commons-logging;1.0.4：在 commons-logging#commons-logging 中找不到配置；1.0.4：'master'。org.apache.hadoop#Hadoop;working@btsotbal800 commons-logging 需要它

log4j#log4j;1.2.15: 在 log4j#log4j;1.2.15: 'master' 中找不到配置。org.apache.hadoop#Hadoop;working@btsotbal800 log4j 需要它

现在，我有几个关于这个的问题，因为我用来做这件事的书没有详细说明这些事情到底是什么。

Hadoop 使用 commons-logging 和 log4j 库吗？
这些库似乎位于 $HADOOP_HOME/lib 中。它们虽然是 jar 文件。我应该提取它们，尝试更改一些配置，然后将它们重新打包回罐子中吗？
上述错误中的“大师”是什么意思？有不同版本的库吗？

提前感谢您提供的任何见解。

ant hadoop mount fuse hdfs

2011-07-14T20:59:47.373

0 投票

3 回答

518 浏览

nosql - NoSQL 上的文件 I/O - 尤其是 HBase - 是否推荐？或不？

我是 NoSQL 的新手，现在我正在尝试使用HBase进行文件存储。我会将文件作为二进制文件存储在 HBase 中。

我不需要任何统计数据，只需要文件存储。

是否推荐？我担心 I/O 速度。

我使用 HBase 作为存储的原因是我必须使用HDFS，但我无法在客户端计算机上构建 Hadoop。正因为如此，我试图找到一些帮助客户端连接到 HDFS 以获取文件的库。但是没找到，只好选择了HBase而不是连接库。

在这种情况下，我该怎么办？

nosql hadoop hbase hdfs

2011-07-21T00:33:23.020

0 投票

1 回答

496 浏览

nosql - 用于文件 I/O 的 Hbase。以及在远程客户端上连接 HDFS 的方法

请注意，在您阅读之前，我的英语并不流利。我是 NoSQL 的新手，现在尝试使用 HBase 进行文件存储。- 我会将文件作为二进制文件存储在 HBase 中。我不需要任何统计数据。只有我需要的是文件存储。是否推荐！？！？

我担心 I/O 速度。

实际上，因为我找不到任何方法可以将 HDFS 与 hadoop 连接起来，所以我想尝试使用 HBase 进行文件存储。我无法在客户端计算机上设置 Hadoop。我试图找到一些库——比如用于 RDBMS 的 JDBC——它们可以帮助客户端连接 HDFS 以获取文件。但我找不到任何东西，只是选择了 HBase 而不是连接库。

我可以从某人那里得到任何帮助吗？

nosql hadoop hbase hdfs

2011-07-22T00:04:32.830

0 投票

1 回答

1368 浏览

java - 在 $HADOOP_HOME 之外运行 Java 程序（使用 HDFS JAVA API）

我有一个简单的 Java 程序，它只是读取一些文本并将其写入 HDFS 上的文件。我使用hadoop HDFSReadWrite text运行它。

我想从 eclipse 或任何其他 java 程序中运行它，并且仍然能够在 Hadoop 环境之外使用 HDFS。有没有办法做到这一点？我需要它真的很糟糕。

java eclipse hadoop hdfs

2011-07-30T00:11:45.540

0 投票

1 回答

1623 浏览

hadoop - 'hadoop fs -tail -f' 的编程等效项

我想使用org.apache.hadoop.fs.FileSystemAPI 以编程方式跟踪 hdfs 文件。有没有办法以等同于hadoop fs -tail -f命令的方式使用 API 来跟踪文件？

hadoop tail hdfs

2011-08-01T14:12:12.897

0 投票

2 回答

1755 浏览

hadoop - hive/hadoop 如何确保每个映射器都处理它的本地数据？

困扰我的2个基本问题：

我如何确定 hive 用于存储我的表的 32 个文件中的每一个都位于其唯一的机器上？
如果发生这种情况，我如何确定如果 hive 创建了 32 个映射器，它们中的每一个都将处理其本地数据？hadoop/hdfs 是否保证了这种魔力，或者作为智能应用程序的 hive 是否确保它会发生？

背景：我有一个由 32 台机器组成的蜂巢集群，并且：

我所有的表都是用"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
我用hive.enforce.bucketing = true;
我验证并且确实每个表都存储为用户/配置单元/仓库中的 32 个文件
我使用的 HDFS 复制因子为 2

谢谢！

hadoop hive hdfs

2011-08-04T12:56:21.010

问题标签 [hdfs]

Reference