问题标签 [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 将文件从本地复制到 hdfs 时出现 Hadoop DFS 错误
有人可以告诉我我做错了什么吗?
hadoop - Hadoop DFS 权限错误
当我尝试将一些文件从我的 LFS 放到 HDFS 时,为什么我不断收到这个错误?
hadoop - CloudStore 与 HDFS
有没有人熟悉使用CloudStore和 HDFS。我有兴趣了解 CloudStore 的扩展程度以及它在生产中的使用程度。CloudStore 似乎比 HDFS 功能更全。在考虑这两个文件系统时,有哪些实际的权衡?
hadoop - 将数据写入 Hadoop
我需要从 Windows 框等外部源将数据写入 Hadoop (HDFS)。现在我一直在将数据复制到名称节点并使用 HDFS 的 put 命令将其摄取到集群中。在我浏览代码时,我没有看到用于执行此操作的 API。我希望有人能告诉我我错了,并且有一种简单的方法可以针对 HDFS 对外部客户端进行编码。
storage - 可扩展的图像存储
我目前正在为基于 Web 的应用程序设计一个架构,该架构还应该提供某种图像存储。用户将能够上传照片作为该服务的主要功能之一。查看这些图像也是主要用途之一(通过网络)。
但是,我不确定如何在我的应用程序中实现这种可扩展的图像存储组件。我已经考虑过不同的解决方案,但由于缺少经验,我期待听到您的建议。除了图像,还必须保存元数据。以下是我的初步想法:
使用像 HDFS 这样的(分布式)文件系统,并准备专用的网络服务器作为“文件系统客户端”,以保存上传的图像和服务请求。图像元数据保存在一个附加数据库中,包括每个图像的文件路径信息。
在 HDFS 之上使用 HBase 等面向 BigTable 的系统,并将图像和元数据一起保存。同样,网络服务器桥接图像上传和请求。
使用像 CouchDB 这样完全无模式的数据库来存储图像和元数据。此外,使用基于 HTTP 的 RESTful API 使用数据库本身进行上传和交付。(附加问题:CouchDB 确实通过 Base64 保存 blob。但是它能否以图像/jpeg 等形式返回数据)?
hadoop - hadoop.tmp.dir 应该是什么?
Hadoop 具有配置参数hadoop.tmp.dir
,根据文档,它是“其他临时目录的基础”。我想,这个路径是指本地文件系统。
我将此值设置为/mnt/hadoop-tmp/hadoop-${user.name}
. 格式化名称节点并启动所有服务后,我看到在 HDFS 上创建的路径完全相同。
这是否意味着, hadoop.tmp.dir
指的是HDFS上的临时位置?
hadoop - HDFS默认在哪里存储文件?
我正在使用具有单节点集群的默认配置运行 hadoop,并且想查找 HDFS 在本地存储文件的位置。
有任何想法吗?
谢谢。
python - 是否有任何现有的批处理日志文件聚合解决方案?
我希望从多个节点日志文件(在我的情况下是 apache 访问和错误日志)中导出,并将该数据批量聚合,作为计划的作业。我见过多种处理流数据的解决方案(即 think scribe)。我想要一个工具,让我可以灵活地定义目的地。这个要求来自于我想使用 HDFS 作为目标。
我一直无法找到批量支持此功能的工具。在重新创建轮子之前,我想询问 StackOverflow 社区的意见。
如果python中已经存在解决方案,那就更好了。
hadoop - Hadoop dfs -ls 返回我的 hadoop/ 目录中的文件列表
我已经在 Win7 下设置了一个通过 cygwin 运行的单节点 Hadoop 配置。启动 Hadoop 后
跑返回我的 hadoop 目录中的文件列表。然后我跑是 -ls 仍然返回我的 hadoop 目录的内容。据我了解,它应该什么都不返回(空文件夹)。我究竟做错了什么?hadoop - Hadoop伪分布式模式错误
我已经使用 Virtualbox 在 OpenSuse 11.2 VM 上设置了 Hadoop。我已经进行了先决条件配置。我在独立模式下成功运行了这个示例。但在伪分布式模式下,我收到以下错误: