问题标签 [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - Amazon MapReduce 没有减速器作业
我正在尝试通过 AWS(流式作业)创建一个仅映射器的作业。reducer 字段是必需的,因此我提供了一个虚拟可执行文件,并将 -jobconf mapred.map.tasks=0 添加到 Extra Args 框中。在我安装的 hadoop 环境(0.20 版)中,不会启动减速器作业,但在 AWS 中,虚拟可执行文件会启动并失败。
如何在 AWS 中运行没有 reducer/mapper 的作业?
java - 关于hadoop“java.lang.RuntimeException:java.lang.ClassNotFoundException:”的问题
这是我的源代码
这是我编译和运行的方式
但我收到以下错误:
谁能告诉我怎么了
谢谢
java - 在Hadoop中启动namenode时出错
当我尝试格式化名称节点甚至启动它时,我收到以下错误。应该做什么??
hadoop - Hadoop猪拉丁风格指南?
我正在寻找关于猪拉丁语格式/样式的捷径(hadoop-ay)。
有谁知道我在哪里可以找到风格指南?
c# - 关于使用 C# 与 Hadoop FileSystem 对话的问题
目前,我的应用程序在 Linux 上使用 C# 和 MONO 与本地文件系统(例如 ext2、ext3)进行通信。基本操作是打开文件、写入/读取文件和关闭/删除文件。为此,目前我使用 C# 原生 API(如 File.Open)对文件进行操作。
我的问题是:如果我在我的 Linux 机器上安装 Hadoop 文件系统。然后我需要对我现有的函数做些什么改变,以便它们与 hadoop 文件系统通信以对文件执行基本操作。由于 Hadoop 基础架构基于 Java,任何 C#(在 linux 上使用 MONO)应用程序将如何使用 Hadoop 进行基本操作。C# 中用于操作文件的基本 API(likr File.Open 或 File.Copy)是否也适用于 Hadoop 文件系统?
我在想这样的事情:因为 Hadoop 公开了用于文件操作的 C API。因此,编写一个 C 包装器并用它制作一个 DLL。然后在 C# 代码中使用此 DLL 与 Hadoop FileSystems 进行通信。
这看起来对吗?或者有人可以建议一些文档或步骤,以便我的 c# 程序可以从 Hadoop FileSystems 打开/读取/写入文件。
谢谢,阿尼尔。
jar - 如何在我的 map/reduce 作业中使用更新版本的 hadoop/lib jar?
Hadoop 目前在其 lib 文件夹中附带 commons-httpclient-3.0.1.jar。
如果我有一个需要 commons-httpclient-3.1.jar 的 map/reduce 任务,将这个 jar 捆绑在我的 hadoop jar 的 lib 文件夹中似乎是不够的(就像任何普通的外部 jar 依赖项一样),因为hadoop似乎是从它的lib文件夹中加载前一个jar,而不是使用我提供的那个。
不能使用hadoop也使用的不同版本的jar吗?
java - 使用 ftp 执行远程 java 程序,远程机器上的数据集非常大 - 程序到数据与数据到程序
我正在开发一个基于 java 的应用程序;其相关要求如下
大型数据集存在于网络上的多台机器上。我的程序需要(远程)执行一个 java 程序来处理这些数据集并获取结果
Windows 桌面上的用户需要在机器 A 上处理数据集(几个 gig)。我的程序可以驻留在用户的机器上。他将从他的机器上执行我的程序并在远程机器上启动数据集处理
他不会通过网络从远程机器获取数据集到他的机器,而是在远程机器上执行程序并获取结果
用户可能对其他机器具有开放访问权限,但需要 ftp
数据不应该通过网络传送到用户的机器上。
用户有windows操作系统
我的问题
如何执行这种远程进程执行?有任何想法吗?
我在看hadoop;我正在使用 Windows XP。我无法让 hadoop 为单节点集群工作;我找不到好的文档。因此,我还没有完全测试过 hadoop。如果我走在正确的轨道上,有什么意见吗?
你们中的任何人发现任何对安装 hadoop 和故障排除有用的链接?
提前感谢您的任何回复。请让我知道我是否应该提供更多/具体的细节。
-jv
eclipse - Error in using Hadoop MapReduce in Eclipse
When I executed a MapReduce program in Eclipse using Hadoop, I got the below error.
It has to be some change in path, but I'm not able to figure it out.
Any idea?
database - 任何可扩展的 OLAP 数据库(Web 应用程序规模)?
我有一个应用程序需要对不同级别的聚合进行分析,这就是 OLAP 工作负载。我也想经常更新我的数据库。
例如,这是我的更新的样子(模式看起来像:时间、目标、源 ip、浏览器 -> 访问)
然后我想问一下上个月从 Firefox 浏览器访问 www.stackoverflow.com 的总次数是多少。
我了解 Vertica 系统可以以相对便宜的方式做到这一点(性能和可扩展性方面,但可能不是成本方面)。我在这里有两个问题。
1) 有没有我可以构建的开源产品来解决这个问题?特别是,蒙德里安系统的工作情况如何?(可扩展性和性能) 2)是否有 HBase 或 Hypertable 基础解决方案(显然,裸 HBase/Hypertable 无法做到这一点)?-- 但是如果有一个基于 HBase/Hypertable 的项目,可扩展性可能不会成为 IMO 的问题)?
谢谢!
compression - 关于 Hadoop 和压缩输入文件的非常基本的问题
我已经开始研究 Hadoop。如果我的理解是正确的,我可以处理一个非常大的文件,它会被分割到不同的节点上,但是如果文件被压缩,那么文件就不能被分割并且需要由单个节点处理(有效地破坏了在并行机器集群上运行 mapreduce)。
我的问题是,假设以上是正确的,是否可以将大文件手动拆分为固定大小的块或每日块,压缩它们,然后传递压缩输入文件的列表以执行 mapreduce?