问题标签 [hadoop-plugins]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - hadoop eclipse 插件构建/配置
我已经能够在 linux 环境中配置和启动 hdfs(apache hadoop)。我尝试了各种方法来使用 HADOOP ECLIPSE PLUGIN 为 hadoop 设置 eclipse 环境。只有 Eclipse 识别的插件 jar 存在 1280 jira 问题,其他方法甚至无法识别,例如从 hadoop src 构建 eclipse 插件等。来自 1280 链接的修补 jar 显示“无法连接到 127.0.0.1:3515 EOFException”。许多博客/论坛都说修补 hadoop 的不同方法,使用各种工具构建等等。等等。没有一个稳定的 hadoop 项目可以用 eclipse 配置,以便开发人员可以快速获取环境并处理各种示例?我不想使用 Cloudera VM,因为它让我无法以正常方式理解 hadoop,而且安装是一个包含大文件的过程。
谢谢查克里
hadoop - 远程使用 Hadoop 集群
我有一个 Web 应用程序和 1 个远程集群(可以是一个或多个)。这些集群可以在不同的机器上。我想从我的 Web 应用程序执行以下操作:
1 HDFS 操作:-
- 创建新目录
- 从 HDFS(Hadoop 分布式文件系统)中删除文件
- 列出 HDFS 上存在的文件
- 将文件加载到 HDFS
- 卸载文件
2 工作相关行动:-
- 提交地图减少工作
- 查看他们的状态,即完成了多少工作
- 完成工作所花费的时间
我需要一个可以帮助我从 Web 应用程序执行这些任务的工具 - 通过 API、REST 调用等。我假设该工具将在同一台机器上运行(作为 Web 应用程序)并且可以指向特别是远程集群。
虽然作为最后一个选项(因为可以有多个不同的集群,很难确保每个集群都安装了插件、库等),但我想知道是否会有一些 Hadoop 库、插件-in 依赖于集群,允许从远程机器访问并执行上述任务。
hadoop - 数据节点未启动
我在我的盒子中配置了 hadoop 设置并使用示例程序一切都很好并且运行良好所有守护进程也处于运行状态。第二天早上数据节点没有运行。
ubuntu - 在 ubuntu 12.04 上安装 mahout - E:无法找到软件包 mahout
如何在 ubuntu 12.04 上安装 mahout?
eclipse - Hadoop Eclipse 插件错误:本地异常调用 localhost/127.0.0.1:54311 失败:java.io.EOFException
一年前我看到有人提出了类似的问题。这是链接: 看这里
我有类似的配置,但面临同样的EOFException
错误。
Eclipse 的 Hadoop 插件有问题还是与我的 Hadoop 配置有关?(注意:我遵循标准配置;所以没有出错的机会;另外,当我运行 bin/start-all.sh 时,单节点 Hadoop 集群运行良好)
下面是 Eclipse 在连接到 HDFS 时的堆栈跟踪:
Hadoop NameNode 日志如下:
任何快速帮助将不胜感激。
hadoop - Hadoop 安全
我正在尝试学习“如何在 Hadoop 中实现 Kerberos?” 我浏览了这个文档 https://issues.apache.org/jira/browse/HADOOP-4487 我也浏览了基本的 Kerberos 东西(https://www.youtube.com/watch?v=KD2Q-2ToloE)
从这些资源中学习后,我得出了一个我通过图表表示的结论。场景: - 用户登录到他的计算机通过 Kerberos 身份验证并提交地图缩减作业(请阅读图表的描述,它几乎不需要 5 分钟的时间)我想解释图表并提出与少数相关的问题步骤(粗体) 黄色背景的数字代表整个流程(数字 1 到 19) DT(红色背景)代表委托令牌 BAT(绿色背景)代表块访问令牌 JT(棕色背景)代表作业令牌
步骤 1、2、3 和 4 表示:- 请求 TGT(授予票证)请求名称节点的服务票证。 Question1) KDC应该在哪里?它可以在我的名称节点或作业跟踪器所在的机器上吗?
步骤 5、6、7、8 和 9 代表:- 向名称节点显示服务票证,获得确认。名称节点将发出委托令牌(红色)用户将告知令牌更新者(在这种情况下是 Job Tracker)
问题 2) 用户将此委托令牌连同作业一起提交给 Job Tracker。委托令牌会与任务跟踪器共享吗?
步骤 10、11、12、13 和 14 代表:- 请求 Job tracker 的服务票证,从 KDC 获取服务票证 将此票证显示给 Job Tracker 并从 JobTracker 获得 ACK 提交 Job + Delegation Token 到 JobTracker。
步骤 15,16 和 17 表示:- 生成块访问令牌并传播到所有数据节点。将 blockID 和 Block Access Token 发送到 Job Tracker,Job Tracker 会将其传递给 TaskTracker
问题 3) 谁会向 Name Node 索要 BlockAccessToken 和 Block ID?JobTracker 或 TaskTracker
抱歉,我不小心错过了 18 号。Step19 表示:- Job Tracker 生成 Job Token(棕色)并将其传递给 TaskTrackers。
问题 4)我是否可以得出结论,每个用户将有一个委托令牌,它将分布在整个集群中,并且每个作业将有一个作业令牌?所以一个用户将只有一个Delegation Token和许多Job Tokens(等于他提交的作业数量)。
请告诉我我是否遗漏了什么,或者我在解释中的某个地方有错误。
eclipse - Hadoop eclipse mapreduce 不工作?
我刚刚复制hadoop-eclipse-plugin-1.0.3.jar
到 eclipse/plugins 目录以使事情顺利进行。但不幸的是,它对我不起作用。当我尝试将 eclipse 连接到我的Hadoop 1.1.1 版集群时,它抛出了这个错误:
有没有办法解决这个问题?
hadoop - 如何为 CDH4 ( 4.2.0 ) 构建 eclipse-plugin
有谁知道如何为 CDH4 ( 4.2.0 ) 构建 eclipse-plugin ?我google了一个早上,只发现了一些关于4.1.2或更早版本的提示。
我的hadoop集群是Cloudera Management搭建的,CDH最新版本是4.2.0,不知道eclipse-plugin怎么搭建,还是把CDH版本回滚到4.1.2?如果是这样,该怎么做?
hadoop - 在 Eclipse Map/Reduce 位置,新的 Hadoop 位置没有响应?
在 Eclipse 中,我正在尝试添加新的 hadoop 位置。但是当我单击添加新的 hadoop 位置时,它没有响应。我为 hadoop 1.0.4 构建了自己的插件。
我的清单如下所示,
java - 如何获取 Hadoop 执行的已完成作业的统计信息?
当我们在 Hadoop 上运行数据密集型作业时。Hadoop 执行该作业。现在我想要的是工作完成时。它会给我有关已执行工作的统计信息,即;消耗的时间、mapper 数量、reducer 数量和其他有用信息。
作业执行期间在浏览器中显示的信息,如作业跟踪器、数据节点。但是我怎样才能在我的应用程序中获得统计数据,该应用程序通过 Hadoop 运行作业并在作业完成结束时给我提供报告之类的结果。我的应用程序是 JAVA
任何可以帮助我的 API。建议将不胜感激。