3

我有一个 Web 应用程序和 1 个远程集群(可以是一个或多个)。这些集群可以在不同的机器上。我想从我的 Web 应用程序执行以下操作:

1 HDFS 操作:-

  • 创建新目录
  • 从 HDFS(Hadoop 分布式文件系统)中删除文件
  • 列出 HDFS 上存在的文件
  • 将文件加载到 HDFS
  • 卸载文件

2 工作相关行动:-

  • 提交地图减少工作
  • 查看他们的状态,即完成了多少工作
  • 完成工作所花费的时间

我需要一个可以帮助我从 Web 应用程序执行这些任务的工具 - 通过 API、REST 调用等。我假设该工具将在同一台机器上运行(作为 Web 应用程序)并且可以指向特别是远程集群。

虽然作为最后一个选项(因为可以有多个不同的集群,很难确保每个集群都安装了插件、库等),但我想知道是否会有一些 Hadoop 库、插件-in 依赖于集群,允许从远程机器访问并执行上述任务。

4

1 回答 1

2

允许您在此处列出的所有内容的最佳框架是Spring Data - Apache Hadoop。这具有基于 Java Scripting API 的实现来执行以下操作

1 HDFS Actions :-

Create New Directory
Remove files from HDFS(Hadoop Distributed File System)
List Files present on HDFS
Load File onto the HDFS
Unload File

以及基于弹簧调度的实现来执行以下操作

2 Job Related Actions:-

Submit Map Reduce Jobs
View their status i.e. how much job has comleted
Time taken by the job to finish
于 2012-12-03T11:57:50.610 回答