问题标签 [hdfs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
16817 浏览

amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

我的 hadoop 作业在 HDFS 上生成大量文件,我想编写一个单独的线程,将这些文件从 HDFS 复制到 S3。

任何人都可以向我指出任何处理它的java API。

谢谢

0 投票
2 回答
1673 浏览

amazon-s3 - Hadoop 将文件从本地机器上传到 amazon s3

我正在开发一个 Java MapReduce 应用程序,该应用程序必须能够为从用户本地机器到 S3 存储桶的一些图片提供上传服务。

问题是应用程序必须在 EC2 集群上运行,所以我不确定在复制文件时如何引用本地计算机。方法 copyFromLocalFile(..) 需要来自本地机器的路径,该路径将是 EC2 集群......

我不确定我是否正确地陈述了问题,有人能理解我的意思吗?

谢谢

0 投票
3 回答
2148 浏览

hadoop - 哪个是组合小型 HDFS 块的最简单方法?

我正在使用 Flume 将日志收集到 HDFS。对于测试用例,我有小文件(~300kB),因为日志收集过程已针对实际使用进行了扩展。

有没有什么简单的方法可以将这些小文件组合成更接近 HDFS 块大小(64MB)的大文件?

0 投票
3 回答
15784 浏览

hadoop - Hadoop namenode:单点故障

Hadoop 架构中的 Namenode 是单点故障。

拥有大型 Hadoop 集群的人如何应对这个问题?

是否有一个行业接受的、运行良好的解决方案,其中一个辅助 Namenode 接管以防主 Namenode 出现故障?

0 投票
4 回答
12629 浏览

java - 具有 HDFS 输入和 HBASE 输出的 hadoop map reduce 作业

我是hadoop的新手。我有一个 MapReduce 作业,它应该从 Hdfs 获取输入并将 reducer 的输出写入 Hbase。我没有找到任何好的例子。

这是代码,运行此示例的错误是 Map 中的类型不匹配,预期 ImmutableBytesWritable 收到 IntWritable。

映射器类

减速机类

我只在 HDFS 上做过类似的工作并且工作正常。

2013 年 6 月 18 日编辑。两年前,学院项目顺利完成。对于作业配置(驱动程序部分),请检查正确答案。

0 投票
1 回答
15022 浏览

hadoop - “distcp”和“distcp -update”之间的区别?

和有什么区别

他们俩都会做同样的工作,只是我们如何称呼他们略有不同。它们都不会覆盖目标中已经存在的文件。那么在两组不同的命令中有什么意义呢?

0 投票
2 回答
3412 浏览

java - Hbase和Hive集成有什么好处

最近,我看到一个博客,作者提到了 Hbase 和 Hive 的集成。这是否可能,如果可以,使用两者有什么优势(在性能和可扩展性方面)。如果我错了,请纠正我。

0 投票
1 回答
2910 浏览

hdfs - HDFS中DFSClient和FileSystem的区别

Hadoop DFS (HDFS)中的 DFSClient 协议和 FileSystem 类有什么区别。这两个类都用于将远程客户端连接到 HDFS 中的名称节点。所以,我想知道一个比另一个的优势,哪个适合远程客户端连接。

0 投票
5 回答
78141 浏览

hadoop - Hadoop复制一个目录?

是否有可以将整个本地目录复制到 HDFS 的 HDFS API?我找到了一个用于复制文件的 API,但是否有一个用于目录的 API?

0 投票
1 回答
1191 浏览

hbase - 如何存储和查询非常大的数据集(除了关系数据库)

我们目前面临的问题是如何有效地从非常大的数据集(数十亿)中存储和检索数据。我们一直在使用 mysql 并优化了系统、操作系统、raid、查询、索引等,现在正在寻求继续前进。

我需要就采用何种技术来解决我们的数据问题做出明智的决定。我一直在研究使用 HDFS 的 map/reduce,但也听说过有关 HBase 的好消息。我不禁想到还有其他选择。是否对可用的技术进行了很好的比较,以及每种技术的权衡是什么?

如果您有每个链接可以分享,我也将不胜感激。