问题标签 [hadoop-plugins]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop 任务调度程序:容量与公平共享还是其他?
背景
我的雇主正在逐步将我们的资源密集型 ETL 和后端处理逻辑从 MySQL 转移到 Hadoop ( dfs & hive )。目前,一切仍然有点小且易于管理(20 TB 超过 10 个节点),但我们打算逐步增加集群大小。
现在,hadoop 正在转向生产用途,它成为批处理调度和在 ad-hoc 用户配置单元查询、每小时 M/R 进程之间共享集群的更大问题,我相信最终会使用 hbase。担心的是用户可能会进行一个幼稚的查询,该查询可能会运行不合理的时间(例如 4 小时),从而阻塞任务队列并产生潜在的基础架构负载不稳定。
问题
我公司的另一部分已经被 Flume 的不成熟所烧毁,所以我的问题是,这两个已知的调度程序(Capacity 和 Fair)有多稳定,除了在他们的赞助公司(Yahoo 和 Facebook)中的使用之外,它们在其他地方是否使用过?
编辑:背景信息
http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/
http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html
http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html
python - 在 Hadoop 流中链接多个 mapreduce 任务
我在我有两个 mapreduce 工作的情况下。我对 python 更满意,并计划用它来编写 mapreduce 脚本并使用 hadoop 流。使用 hadoop 流时,是否可以方便地链接两个作业?
Map1 -> Reduce1 -> Map2 -> Reduce2
我听说过很多在 java 中实现这一点的方法,但我需要一些用于 Hadoop 流的东西。
lucene - 是否可以在一个 JVM 中运行多个地图任务?
我想在 Hadoop 中为我的地图任务共享大量内存静态数据(RAM lucene 索引)?有没有办法让几个 map/reduce 任务共享同一个 JVM?
eclipse-plugin - 从 Eclipse 访问 Hadoop 集群
我只是按照 Hadoop(0.20.2) 安装教程进行了设置。我可以通过eclipse在集群上运行map reduce程序。现在我的问题是如何从本地系统连接到 Hadoop 集群。本地系统是 windows 7,我已经为 Hadoop 安装了 eclipse 插件。我试图从我的本地系统 windows 连接到 Hadoop(我的本地系统和 Hadoop 系统在同一个子网中)。连接到 Hadoop 服务器时出现连接超时错误。
在 Hadoop 的配置文件中,我给出了实际的 IP 地址。不确定我错过了哪一步?
hadoop - Hadoop 基础知识:我如何处理输出?
(我确定存在类似的问题,但我还没有找到我正在寻找的答案。)
我正在使用Hadoop和Hive(对于熟悉 SQL 的开发人员)每晚批处理数 TB 的数据。从几百个大型 CSV 文件的输入中,我输出了四五个相当大的 CSV 文件。显然,Hive 将这些存储在 HDFS 中。最初,这些输入文件是从一个巨大的 SQL 数据仓库中提取的。
Hadoop 对于它所做的事情非常有价值。但是处理输出的行业标准是什么?现在我正在使用 shell 脚本将它们复制回本地文件夹并将它们上传到另一个数据仓库。
本题:(Hadoop与MySQL集成)调用Hadoop导出非标准重新导入的做法。如何使用 BI 工具探索我的数据,或将结果集成到我的 ASP.NET 应用程序中?节约?原型?Hive ODBC API 驱动程序?一定会有更好的办法.....
开导我。
hadoop - How to configure hive server to run on remote mode?
i added hive package to my hadoop cluster. if i go into hive cli, i can run hive in remote mode. but queries going through hive server runs in local mode which is really slow... the only changes i did to hive is to set up derby network server, following this link: http://wiki.apache.org/hadoop/HiveDerbyServerMode i also have exported HADOOP_CONF_DIR, HADOOP_HOME, HIVE_CONF_DIR, HIVE_HOME in my environment...
anybody know how to fix this?
hadoop - 评估和比较 Hadoop 的商业智能设计注意事项
我正在考虑用于数据仓库和商业智能的各种技术,并且遇到了这个名为 Hadoop 的激进工具。Hadoop 似乎并不是完全为 BI 目的而构建的,但有一些参考资料表明它在该领域具有潜力。( http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488)。
不管我从互联网上获得的信息多么少,我的直觉告诉我,hadoop 可以成为传统 BI 解决方案领域的颠覆性技术。关于这个主题的信息确实很少,因此我想在这里收集 Guru 关于 Hadoop 作为 BI 工具的潜力的所有想法,与Oracle Exadata、vertica 等传统后端 BI 基础设施相比。对于初学者,我想问以下问题 -
- 设计注意事项- 使用 Hadoop 设计 BI 解决方案与传统工具有何不同?我知道它应该有所不同,因为我读到无法在 Hadoop 中创建模式。我还读到一个主要优势将是完全消除 Hadoop 的 ETL 工具(这是真的吗?)我们是否需要 Hadoop + pig + mahout 来获得 BI 解决方案?
感谢和问候!
编辑 - 分解成多个问题。将从我认为最重要的那个开始。
hadoop - HBase 键值压缩?
感谢您对我的问题感兴趣。在开始之前,我想让您知道我对 Hadoop 和 HBase 非常陌生。到目前为止,我发现 Hadoop 非常有趣,并希望在未来做出更多贡献。
我主要对提高 HBase 的性能感兴趣。为此,我修改Writer
了 HBase/io/hfile/Hfile.java
中的方法,使其进行高速缓冲数据组装,然后直接写入 Hadoop,以便以后可以由 HBase 加载。
现在,我试图想出一种压缩键值对的方法,以便节省带宽。我做了很多研究来弄清楚如何做;然后意识到HBase有内置的压缩库。
我目前正在查看 SequenceFile (1);setCompressMapOutput (2)(已弃用);和类压缩(3)。我还找到了关于 Apache 的 MapReduce的教程。
有人可以解释什么是“SequenceFile”,以及如何实现这些压缩库和算法?这些不同的类和文档让我很困惑。
我真诚地感谢您的帮助。
--
超链接:
(1):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
(2):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29
(3): www.apache.org/dist/hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html
hadoop - Mapper 类型不是通用的,hadoop eclipse 插件
我正在使用eclipse编写mapreduce程序。我导入了hadoop库(hadoop-0.13.0-core.jar)
我导入了 Mapper 类 import org.apache.hadoop.mapred.Mapper; 这没有错误,但是当我编写这个程序时,它的源代码是http://developer.yahoo.com/hadoop/tutorial/module3.html
它给了我错误类型映射器不是通用的;它不能用参数参数化
hadoop-plugins - 如何在hadoop中设置mapreduce位置?
我是 Apache hadoop 的新手。我安装了必备软件并配置了所有东西,eclipse插件也完成了,但是当我点击新的hadoop位置时它不起作用。任何人都可以帮助我......