“hadoop-plugins”的相关标签问题

0 投票

1 回答

2117 浏览

hadoop - Hadoop 任务调度程序：容量与公平共享还是其他？

背景

我的雇主正在逐步将我们的资源密集型 ETL 和后端处理逻辑从 MySQL 转移到 Hadoop ( dfs & hive )。目前，一切仍然有点小且易于管理（20 TB 超过 10 个节点），但我们打算逐步增加集群大小。

现在，hadoop 正在转向生产用途，它成为批处理调度和在 ad-hoc 用户配置单元查询、每小时 M/R 进程之间共享集群的更大问题，我相信最终会使用 hbase。担心的是用户可能会进行一个幼稚的查询，该查询可能会运行不合理的时间（例如 4 小时），从而阻塞任务队列并产生潜在的基础架构负载不稳定。

问题

我公司的另一部分已经被 Flume 的不成熟所烧毁，所以我的问题是，这两个已知的调度程序（Capacity 和 Fair）有多稳定，除了在他们的赞助公司（Yahoo 和 Facebook）中的使用之外，它们在其他地方是否使用过？

编辑：背景信息

http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/

http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html

http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html

2010-09-15T20:51:55.453

0 投票

4 回答

7547 浏览

python - 在 Hadoop 流中链接多个 mapreduce 任务

我在我有两个 mapreduce 工作的情况下。我对 python 更满意，并计划用它来编写 mapreduce 脚本并使用 hadoop 流。使用 hadoop 流时，是否可以方便地链接两个作业？

Map1 -> Reduce1 -> Map2 -> Reduce2

我听说过很多在 java 中实现这一点的方法，但我需要一些用于 Hadoop 流的东西。

python hadoop mapreduce hadoop-plugins

2011-01-07T14:18:39.407

0 投票

4 回答

4378 浏览

lucene - 是否可以在一个 JVM 中运行多个地图任务？

我想在 Hadoop 中为我的地图任务共享大量内存静态数据（RAM lucene 索引）？有没有办法让几个 map/reduce 任务共享同一个 JVM？

lucene jvm hadoop hadoop-plugins

2011-02-02T17:29:44.480

0 投票

1 回答

1345 浏览

eclipse-plugin - 从 Eclipse 访问 Hadoop 集群

我只是按照 Hadoop(0.20.2) 安装教程进行了设置。我可以通过eclipse在集群上运行map reduce程序。现在我的问题是如何从本地系统连接到 Hadoop 集群。本地系统是 windows 7，我已经为 Hadoop 安装了 eclipse 插件。我试图从我的本地系统 windows 连接到 Hadoop（我的本地系统和 Hadoop 系统在同一个子网中）。连接到 Hadoop 服务器时出现连接超时错误。

在 Hadoop 的配置文件中，我给出了实际的 IP 地址。不确定我错过了哪一步？

eclipse-plugin hadoop hadoop-plugins

2011-02-11T07:46:37.340

0 投票

1 回答

1060 浏览

hadoop - Hadoop 基础知识：我如何处理输出？

（我确定存在类似的问题，但我还没有找到我正在寻找的答案。）

我正在使用Hadoop和Hive（对于熟悉 SQL 的开发人员）每晚批处理数 TB 的数据。从几百个大型 CSV 文件的输入中，我输出了四五个相当大的 CSV 文件。显然，Hive 将这些存储在 HDFS 中。最初，这些输入文件是从一个巨大的 SQL 数据仓库中提取的。

Hadoop 对于它所做的事情非常有价值。但是处理输出的行业标准是什么？现在我正在使用 shell 脚本将它们复制回本地文件夹并将它们上传到另一个数据仓库。

本题：（Hadoop与MySQL集成）调用Hadoop导出非标准重新导入的做法。如何使用 BI 工具探索我的数据，或将结果集成到我的 ASP.NET 应用程序中？节约？原型？Hive ODBC API 驱动程序？一定会有更好的办法.....

开导我。

hadoop protocol-buffers thrift hive hadoop-plugins

2011-05-17T16:46:29.983

0 投票

1 回答

4425 浏览

hadoop - How to configure hive server to run on remote mode?

i added hive package to my hadoop cluster. if i go into hive cli, i can run hive in remote mode. but queries going through hive server runs in local mode which is really slow... the only changes i did to hive is to set up derby network server, following this link: http://wiki.apache.org/hadoop/HiveDerbyServerMode i also have exported HADOOP_CONF_DIR, HADOOP_HOME, HIVE_CONF_DIR, HIVE_HOME in my environment...

anybody know how to fix this?

hadoop hive hadoop-plugins

2011-06-06T23:50:19.877

0 投票

4 回答

1321 浏览

hadoop - 评估和比较 Hadoop 的商业智能设计注意事项

我正在考虑用于数据仓库和商业智能的各种技术，并且遇到了这个名为 Hadoop 的激进工具。Hadoop 似乎并不是完全为 BI 目的而构建的，但有一些参考资料表明它在该领域具有潜力。（ http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488）。

不管我从互联网上获得的信息多么少，我的直觉告诉我，hadoop 可以成为传统 BI 解决方案领域的颠覆性技术。关于这个主题的信息确实很少，因此我想在这里收集 Guru 关于 Hadoop 作为 BI 工具的潜力的所有想法，与Oracle Exadata、vertica 等传统后端 BI 基础设施相比。对于初学者，我想问以下问题 -

设计注意事项- 使用 Hadoop 设计 BI 解决方案与传统工具有何不同？我知道它应该有所不同，因为我读到无法在 Hadoop 中创建模式。我还读到一个主要优势将是完全消除 Hadoop 的 ETL 工具（这是真的吗？）我们是否需要 Hadoop + pig + mahout 来获得 BI 解决方案？

感谢和问候！

编辑 - 分解成多个问题。将从我认为最重要的那个开始。

hadoop data-warehouse business-intelligence hadoop-plugins

2011-06-18T10:58:33.133

0 投票

2 回答

2110 浏览

hadoop - HBase 键值压缩？

感谢您对我的问题感兴趣。在开始之前，我想让您知道我对 Hadoop 和 HBase 非常陌生。到目前为止，我发现 Hadoop 非常有趣，并希望在未来做出更多贡献。

我主要对提高 HBase 的性能感兴趣。为此，我修改Writer了 HBase/io/hfile/Hfile.java中的方法，使其进行高速缓冲数据组装，然后直接写入 Hadoop，以便以后可以由 HBase 加载。

现在，我试图想出一种压缩键值对的方法，以便节省带宽。我做了很多研究来弄清楚如何做；然后意识到HBase有内置的压缩库。

我目前正在查看 SequenceFile (1)；setCompressMapOutput (2)（已弃用）；和类压缩(3)。我还找到了关于 Apache 的 MapReduce的教程。

有人可以解释什么是“SequenceFile”，以及如何实现这些压缩库和算法？这些不同的类和文档让我很困惑。

我真诚地感谢您的帮助。

--

超链接：

(1)：hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html

(2)：hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29

(3): www.apache.org/dist/hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html

hadoop hbase hdfs hadoop-plugins

2011-06-20T20:50:57.007

0 投票

1 回答

506 浏览

hadoop - Mapper 类型不是通用的，hadoop eclipse 插件

我正在使用eclipse编写mapreduce程序。我导入了hadoop库（hadoop-0.13.0-core.jar）

我导入了 Mapper 类 import org.apache.hadoop.mapred.Mapper; 这没有错误，但是当我编写这个程序时，它的源代码是http://developer.yahoo.com/hadoop/tutorial/module3.html

它给了我错误类型映射器不是通用的；它不能用参数参数化

hadoop hadoop-plugins

2011-06-24T22:06:29.187

0 投票

0 回答

95 浏览

hadoop-plugins - 如何在hadoop中设置mapreduce位置？

我是 Apache hadoop 的新手。我安装了必备软件并配置了所有东西，eclipse插件也完成了，但是当我点击新的hadoop位置时它不起作用。任何人都可以帮助我......

hadoop-plugins

2011-07-22T09:29:21.507

问题标签 [hadoop-plugins]

背景

问题

编辑：背景信息

Reference