问题标签 [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - 从数据库导出数据并写入 HDFS(hadoop fs)
现在我正在尝试从 db 表中导出数据,并将其写入 hdfs。
问题是:名称节点会成为瓶颈吗?机制如何,名称节点会缓存一个切片(64MB)然后将其提供给数据节点吗?
还有比写hdfs更好的方法吗?因为我认为它没有利用并行性。
谢谢:)
hadoop - 寻找关于 Hadoop 的全面评论
我正在寻找一些关于 Hadoop(300-600 箱集群,商品硬件)的性能评估,特别是在以下方面:
- 高并发读写
- 网络爬取
- Mapreduce,并行计算
- 倒排索引
java - “hadoop namenode -format”返回 java.net.UnknownHostException
我目前正在学习 hadoop,我正在尝试设置http://hadoop.apache.org/common/docs/current/single_node_setup.html中定义的单节点测试
我已经配置了 ssh(我可以不用密码登录)。
我的服务器在我们的 Intranet 上,位于代理后面。
当我试图跑步时
bin/hadoop 名称节点格式
我得到以下 java.net.UnknownHostException 异常:
之后就启动了hadoop
但是当我尝试复制本地文件时出现了另一个新异常:
请问我该如何解决这个问题?
谢谢
filesystems - HDFS 目录中允许的最大文件数是多少?
HDFS (hadoop) 目录中允许的文件和目录的最大数量是多少?
hadoop - Hive - 从 zip 文件创建一个表
我有一堆 CSV 的 zip 文件,我想从中创建 Hive 表。我正在尝试找出最好的方法。
- 解压缩文件,将它们上传到 HDFS。
- 有没有办法将文件复制到HDFS,解压缩
- 或者还有其他更好/推荐的方法吗?
hadoop - 是否可以从多个客户端并行追加到 HDFS 文件?
基本上整个问题都在标题中。我想知道是否可以同时从多台计算机附加到位于 HDFS 上的文件?诸如存储由多个进程不断产生的事件流之类的东西。顺序并不重要。
我记得在 Google 技术演示之一中听到 GFS 支持此类附加功能,但尝试使用 HDFS 进行一些有限的测试(使用常规文件 append() 或使用 SequenceFile)似乎不起作用。
谢谢,
hadoop - HBase 键值压缩?
感谢您对我的问题感兴趣。在开始之前,我想让您知道我对 Hadoop 和 HBase 非常陌生。到目前为止,我发现 Hadoop 非常有趣,并希望在未来做出更多贡献。
我主要对提高 HBase 的性能感兴趣。为此,我修改Writer
了 HBase/io/hfile/Hfile.java
中的方法,使其进行高速缓冲数据组装,然后直接写入 Hadoop,以便以后可以由 HBase 加载。
现在,我试图想出一种压缩键值对的方法,以便节省带宽。我做了很多研究来弄清楚如何做;然后意识到HBase有内置的压缩库。
我目前正在查看 SequenceFile (1);setCompressMapOutput (2)(已弃用);和类压缩(3)。我还找到了关于 Apache 的 MapReduce的教程。
有人可以解释什么是“SequenceFile”,以及如何实现这些压缩库和算法?这些不同的类和文档让我很困惑。
我真诚地感谢您的帮助。
--
超链接:
(1):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
(2):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29
(3): www.apache.org/dist/hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html
hbase - HBase如何删除行?
我在HBase Book中读到现在可以从表中删除行。
它是如何工作的?这些数据是否移动到某个地方以供以后删除?
HBase 受到 HDFS 在编辑一次写入文件方面的限制,所以我很好奇它是如何工作的。如果有人知道更多关于它的信息,请分享你的知识。
谢谢。
java - 将大型 gzip 压缩数据文件上传到 HDFS
我有一个用例,我想在 HDFS 上上传大的 gzip 压缩文本数据文件(~ 60 GB)。
我下面的代码大约需要 2 个小时才能以 500 MB 的块上传这些文件。以下是伪代码。我正在检查是否有人可以帮助我减少这个时间:
i) int fileFetchBuffer = 500000000; System.out.println("文件获取缓冲区为:" + fileFetchBuffer); 整数偏移 = 0;int bytesRead = -1;
hadoop - 检查 HDFS 目录大小的方法?
我知道du -sh
常见的 Linux 文件系统。但是如何使用 HDFS 做到这一点?