“hadoop”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

3998 浏览

amazon-web-services - Amazon MapReduce 没有减速器作业

我正在尝试通过 AWS（流式作业）创建一个仅映射器的作业。reducer 字段是必需的，因此我提供了一个虚拟可执行文件，并将 -jobconf mapred.map.tasks=0 添加到 Extra Args 框中。在我安装的 hadoop 环境（0.20 版）中，不会启动减速器作业，但在 AWS 中，虚拟可执行文件会启动并失败。

如何在 AWS 中运行没有 reducer/mapper 的作业？

2009-12-31T14:26:23.403

0 投票

7 回答

13769 浏览

java - 关于hadoop“java.lang.RuntimeException：java.lang.ClassNotFoundException：”的问题

这是我的源代码

这是我编译和运行的方式

但我收到以下错误：

谁能告诉我怎么了

谢谢

java hadoop

2010-01-01T13:12:41.450

0 投票

2 回答

2624 浏览

java - 在Hadoop中启动namenode时出错

当我尝试格式化名称节点甚至启动它时，我收到以下错误。应该做什么？？

java exception hadoop

2010-01-05T08:25:16.520

0 投票

2 回答

1149 浏览

hadoop - Hadoop猪拉丁风格指南？

我正在寻找关于猪拉丁语格式/样式的捷径（hadoop-ay）。

有谁知道我在哪里可以找到风格指南？

hadoop coding-style

2010-01-10T01:31:58.970

0 投票

2 回答

3081 浏览

c# - 关于使用 C# 与 Hadoop FileSystem 对话的问题

目前，我的应用程序在 Linux 上使用 C# 和 MONO 与本地文件系统（例如 ext2、ext3）进行通信。基本操作是打开文件、写入/读取文件和关闭/删除文件。为此，目前我使用 C# 原生 API（如 File.Open）对文件进行操作。

我的问题是：如果我在我的 Linux 机器上安装 Hadoop 文件系统。然后我需要对我现有的函数做些什么改变，以便它们与 hadoop 文件系统通信以对文件执行基本操作。由于 Hadoop 基础架构基于 Java，任何 C#（在 linux 上使用 MONO）应用程序将如何使用 Hadoop 进行基本操作。C# 中用于操作文件的基本 API（likr File.Open 或 File.Copy）是否也适用于 Hadoop 文件系统？

我在想这样的事情：因为 Hadoop 公开了用于文件操作的 C API。因此，编写一个 C 包装器并用它制作一个 DLL。然后在 C# 代码中使用此 DLL 与 Hadoop FileSystems 进行通信。

这看起来对吗？或者有人可以建议一些文档或步骤，以便我的 c# 程序可以从 Hadoop FileSystems 打开/读取/写入文件。

谢谢，阿尼尔。

c#mono hadoop

2010-01-10T16:56:44.620

0 投票

2 回答

375 浏览

jar - 如何在我的 map/reduce 作业中使用更新版本的 hadoop/lib jar？

Hadoop 目前在其 lib 文件夹中附带 commons-httpclient-3.0.1.jar。

如果我有一个需要 commons-httpclient-3.1.jar 的 map/reduce 任务，将这个 jar 捆绑在我的 hadoop jar 的 lib 文件夹中似乎是不够的（就像任何普通的外部 jar 依赖项一样），因为hadoop似乎是从它的lib文件夹中加载前一个jar，而不是使用我提供的那个。

不能使用hadoop也使用的不同版本的jar吗？

jar hadoop classloader

2010-01-14T19:23:50.450

0 投票

2 回答

1076 浏览

java - 使用 ftp 执行远程 java 程序，远程机器上的数据集非常大 - 程序到数据与数据到程序

我正在开发一个基于 java 的应用程序；其相关要求如下

大型数据集存在于网络上的多台机器上。我的程序需要（远程）执行一个 java 程序来处理这些数据集并获取结果
Windows 桌面上的用户需要在机器 A 上处理数据集（几个 gig）。我的程序可以驻留在用户的机器上。他将从他的机器上执行我的程序并在远程机器上启动数据集处理
他不会通过网络从远程机器获取数据集到他的机器，而是在远程机器上执行程序并获取结果
用户可能对其他机器具有开放访问权限，但需要 ftp
数据不应该通过网络传送到用户的机器上。
用户有windows操作系统

我的问题

如何执行这种远程进程执行？有任何想法吗？
我在看hadoop；我正在使用 Windows XP。我无法让 hadoop 为单节点集群工作；我找不到好的文档。因此，我还没有完全测试过 hadoop。如果我走在正确的轨道上，有什么意见吗？
你们中的任何人发现任何对安装 hadoop 和故障排除有用的链接？

提前感谢您的任何回复。请让我知道我是否应该提供更多/具体的细节。

-jv

java windows hadoop large-files remote-execution

2010-01-14T22:57:26.327

0 投票

3 回答

3245 浏览

eclipse - Error in using Hadoop MapReduce in Eclipse

When I executed a MapReduce program in Eclipse using Hadoop, I got the below error.
It has to be some change in path, but I'm not able to figure it out.
Any idea?

eclipse hadoop mapreduce

2010-01-15T11:15:52.017

0 投票

4 回答

3654 浏览

database - 任何可扩展的 OLAP 数据库（Web 应用程序规模）？

我有一个应用程序需要对不同级别的聚合进行分析，这就是 OLAP 工作负载。我也想经常更新我的数据库。

例如，这是我的更新的样子（模式看起来像：时间、目标、源 ip、浏览器 -> 访问）

然后我想问一下上个月从 Firefox 浏览器访问 www.stackoverflow.com 的总次数是多少。

我了解 Vertica 系统可以以相对便宜的方式做到这一点（性能和可扩展性方面，但可能不是成本方面）。我在这里有两个问题。

1) 有没有我可以构建的开源产品来解决这个问题？特别是，蒙德里安系统的工作情况如何？（可扩展性和性能） 2）是否有 HBase 或 Hypertable 基础解决方案（显然，裸 HBase/Hypertable 无法做到这一点）？-- 但是如果有一个基于 HBase/Hypertable 的项目，可扩展性可能不会成为 IMO 的问题）？

谢谢！

database hadoop olap hbase olap-cube

2010-01-16T01:09:28.873

0 投票

4 回答

12779 浏览

compression - 关于 Hadoop 和压缩输入文件的非常基本的问题

我已经开始研究 Hadoop。如果我的理解是正确的，我可以处理一个非常大的文件，它会被分割到不同的节点上，但是如果文件被压缩，那么文件就不能被分割并且需要由单个节点处理（有效地破坏了在并行机器集群上运行 mapreduce）。

我的问题是，假设以上是正确的，是否可以将大文件手动拆分为固定大小的块或每日块，压缩它们，然后传递压缩输入文件的列表以执行 mapreduce？

compression hadoop

2010-01-16T20:42:17.783

问题标签 [hadoop]

Reference