问题标签 [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nosql - 分片与 DFS
据我了解,分片(例如在 MongoDB 中)和分布式文件系统(例如 HBase 或 HyperTable 中的 HDFS)是数据库用于横向扩展的不同机制,但是我想知道它们如何比较?
hadoop - 并行复制到 HDFS
从 NFS 挂载实现并行复制到 hadoop 的最佳和快速方法是什么?我们有一个包含大量文件的挂载,我们需要将其复制到 hdfs 中。
一些选项:
- 以多线程方式运行 copyFromLocal
- 以孤立的方式使用 distcp。
- 我可以只写一份地图工作来复制吗?
问候, JD
sql - 忽略 Apache Hive 中外部表中的子目录
Hive 在查询外部表时是否有设置或强制它忽略子目录的方法?我的表文件夹中有一个不属于表数据的子目录,我想避免删除它或将文件复制到其他地方。
permissions - Apache Pig 权限问题
我试图让 Apache Pig 在我的 Hadoop 集群上启动并运行,但遇到了权限问题。Pig 本身正在启动并很好地连接到集群——从 Pig shell 中,我可以ls
通过和围绕我的 HDFS 目录。但是,当我尝试实际加载数据并运行 Pig 命令时,我遇到了与权限相关的错误:
在这种情况下,all_annotated.txt
是我创建的 HDFS 主目录中的一个文件,并且绝对有权限;无论我尝试使用什么文件,都会出现同样的问题load
。但是,我不认为这是问题所在,因为错误本身表明 Pig 正在尝试在某处写入。谷歌搜索,我发现一些邮件列表帖子表明某些 Pig Latin 语句(order
等)需要对 HDFS 文件系统上的临时目录的写访问权限,该目录的位置由hadoop.tmp.dir
hdfsd-site.xml 中的属性控制。我认为不属于 load
该类别,但可以肯定的是,我更改hadoop.tmp.dir
为指向我的 HDFS 主目录中的一个目录,但问题仍然存在。
那么,有人对可能发生的事情有任何想法吗?
hadoop - 尝试更新 HDFS 中的文件时更改 HDFS 路径
我是 Hadoop 和 HDFS 的新手,所以当我从本地(Ubuntu 10.04)复制到本地主机上的单个节点上的 HDFS 时,可能是我做错了。初始副本工作正常,但是当我修改本地输入文件夹并尝试复制回 HDFS 时,HDFS 路径发生了变化。
将另一个文件(COMMON.TXT)添加到同一个本地目录后,我在本地目录上运行相同的副本到 HDFS,但这次它复制到与第一次不同的位置(/user/hduser/anagram 到 /user /hduser/字谜/字谜)。
有没有人遇到过这个?我发现要解决这个问题,您需要删除第一个目录,然后再次复制:
有谁知道如何做到这一点而不必每次都删除目录?
hadoop - Hadoop 中的 setCompressOutput
什么时候该用,什么时候不该用
FileOutputFormat.setCompressOutput(conf, true);
?
我听说它压缩了映射器输出。有没有可能压缩减速机侧输出?
(如果我的假设是错误的,请清除我,如何压缩mapper输出和reducer输出!)
hadoop - 如何在 hadoop 中向公众公开任务跟踪器/作业跟踪器 Web 界面?
我正在尝试监视不同的集群节点,但每次我必须 ssh -X 到节点并启动浏览器以查看状态信息。
有没有办法让这些论文http://jobtracker:50030、http://namenode:50070等向公众开放?任何人都可以在浏览器中查看它们。
我想这可能需要通过设置服务器来完成。但是我通过谷歌搜索没有找到任何有用的信息。
hadoop - 运行 Hadoop MapReduce,是否可以在 HDFS 之外调用外部可执行文件
在我的映射器中,我想调用安装在 HDFS 之外的工作节点上的外部软件。这可能吗?做这个的最好方式是什么?
我知道这可能会剥夺 MapReduce 的一些优势/可扩展性,但我想在 HDFS 内进行交互并在我的映射器中调用编译/安装的外部软件代码来处理一些数据。
hbase - 如何从 HBase 获取图像
我的 HDFS 中有大约 1 Gig 的图像 .png 文件。谁能建议我一种将这些图像的索引值存储在 HBase 中并通过查询 HBase 来检索图像的方法。或者我如何使用 HDFS/HBase 来提供图像。请回复。
迫切需要 :(
提前致谢
permissions - 如何在 hadoop 中授予 tasktracker/mapred 用户修改文件和执行进程的权限?
我正在运行 hadoop,并且在映射器进程中我正在执行一些进程并创建/编辑文件。不幸的是,我遇到了一些 mapred 权限错误,例如:
任何人都知道在哪里设置 tasktracker 或 mapred 用户能够修改文件和执行进程的权限?
另外,如果有更好的方法可以做到这一点,请告诉我。