问题标签 [spring-data-hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3550 浏览

hadoop - Spring数据——hadoop连接

我正在尝试使用Spring Data - Hadoop从本地机器的 IDE 执行远程集群上的 MR 代码

Hadoop 1.1.2、Spring 3.2.4、Spring-Data-Hadoop 1.0.0

我的 bean 配置文件即。applicationContext.xml如下:

hadoop.properties

我正在做的java类'运行为......'

输出是:

很明显,集群上无法识别用户 298790(我的本地 Windows 机器用户) - 这就是配置中的原因。文件

  1. 如文档中所述,我在作业配置中指定了 user="bigdata" 。
  2. 医生。还提到:

SHDP 遵循 HDFS 权限,使用当前用户的身份(默认情况下)与文件系统交互。特别是,HdfsResourceLoader 在进行模式匹配时只考虑它应该看到的文件并且不执行任何特权操作。但是可以指定不同的用户,这意味着 ResourceLoader 使用该用户的权限与 HDFS 交互 - 但是这遵守用户模拟规则根据api,我决定使用HdfsResourceLoader但在文档 - 任何人都可以提供任何指针吗?

  1. 根据Hadoop Secure Impersonation,我相信我需要将我的 Windows 用户 298790 添加到远程集群机器(Ubuntu)用户组以及我的 Windows 主机名,如果没有大号,我认为这是不可行的。用户数量和不断变化的 Windows 客户端计算机。如果我的假设是正确的,可以做些什么来避免添加和配置所有这些用户?

/添加对 core-site.xml 的更改/

我重新启动了所有 Hadoop 进程,但错误仍然存​​在。

然后,我决定创建一个新用户即。298790 在远程 Ubuntu 机器上并将其添加到组 bigdata 以进行模拟:

但是现在当我尝试停止(然后启动)集群时,它会询问所有进程的密码:

现在错误稍作修改 - 它首先无法连接,然后模拟

0 投票
4 回答
1767 浏览

spring - 作业提交后的 ClassNotFoundException

我正在尝试使用Spring Data - Hadoop从本地机器的 IDE 执行远程集群上的 MR 代码

//Hadoop 1.1.2、Spring 3.2.4、Spring-Data-Hadoop 1.0.0

尝试使用这些版本:

Hadoop 1.2.1、Spring 4.0.1、Spring-Data-Hadoop 2.0.2

应用上下文.xml

WordCounter.java

输出是:

什么配置。我错过了吗?真的可以在不创建 jar 等的情况下使用 Spring Data 远程提交 Hadoop 作业吗?

0 投票
1 回答
98 浏览

java - 以后如何启动spring data hadoop作业?

我是 SpringData Hadoop 的新手。我从 www 中查看了一些示例,例如 [1]:https ://github.com/pkainulainen/spring-data-apache-hadoop-examples/tree/master/mapreduce

所有这些都配置为在启动时运行:

但我想通过 Servlet 运行这项工作。如何?

0 投票
0 回答
99 浏览

hadoop - 在远程集群上执行 MR 是否需要创建 jar

我一直在尝试 Spring Data for Hadoop 从远程 Hadoop 集群上的本地 Windows STS 执行 MR 作业。

我面临的问题在这里详细提到

有一个类似的线程迫使我提出以下问题。

是否有必要先在我的本地 Windows 机器上(在 Eclipse/STS 项目的 lib 等中)创建一个 .jar 文件,然后才能在远程 Hadoop 集群上执行它?Spring Data 不能简单地将我的代码推送到远程集群并触发执行吗?

0 投票
1 回答
229 浏览

spring - 在 Spring-data hadoop 上运行作业时出现问题

我使用 Mahout 创建了以下 Mapper 和 Reducer

减少类

运行这个的 Spring 配置

当我运行它时,出现以下错误。我已经扩展了 Hadoop 映射器类,但 spring 说它不是映射器类。

java.lang.RuntimeException:类 mypackage.ItemSimilarity.ItemPrefMapper 不是 org.apache.hadoop.mapreduce.Mapper 在 org.apache.hadoop.conf.Configuration.setClass(Configuration.java:931) 在 org.apache.hadoop.mapreduce.Job.setMapperClass(Job.java:175) 在 org.springframework.data.hadoop.mapreduce.JobFactoryBean .afterPropertiesSet(JobFactoryBean.java:153) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.initializeBean(AbstractAutowireCapableBeanFactory.java:1509) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.invokeInitMethods(AbstractAutowireCapableBeanFactory.java:1571) ) 在 org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.createBean(AbstractAutowireCapableBeanFactory.java:458) 的 org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.doCreateBean(AbstractAutowireCapableBeanFactory.java:521)

0 投票
2 回答
2634 浏览

spring-data - Spring Data Hive 与 Hive 模板的集成

我正在尝试使用 spring data hadoop 将 hive 集成到我的应用程序中并遇到一些问题。我不确定的第一件事是<hdp:hive-server host="some-other-host" port="10001" />连接到现有的配置单元服务器或创建一个新的配置单元服务器然后能够连接到它。其次,我的配置不会引发任何错误,所以它看起来还可以,甚至 hiveTemplate 自动装配也可以正常工作,但是当我执行查询时,我似乎没有得到任何响应。应用程序在这一点上卡住了。

这是配置

这就是我如何使用它

我在日志输出中看到的只是before hive query.. 之后没有任何反应。我将不胜感激任何帮助。任何想法我可能做错了什么。

0 投票
0 回答
145 浏览

spring - 如何在 spring-hadoop 项目中从 HCatalog API 配置 MultiOutputFormat?

我正在开发一个hadoop应用程序。现在我想将它迁移到一个 spring-hadoop 项目中。事情在我的 mapreduce 工作中。我正在使用 HCatalog API 中的 MultiOutputFormat,因为我想将信息存储在多个表上。而且我找不到任何示例或文档说明如何在 Spring hadoop 中进行配置。

谁能告诉我该怎么做或给我一些参考资料?太谢谢了。

我正在开发一个hadoop应用程序。现在我想将它迁移到一个 spring-hadoop 项目中。事情在我的 mapreduce 工作中。我正在使用 HCatalog API 中的 MultiOutputFormat,因为我想将信息存储在多个表上。而且我找不到任何示例或文档说明如何在 Spring hadoop 中进行配置。

谁能告诉我该怎么做或给我一些参考资料?太谢谢了。

@Thomas Risberg 嗨,Thomas,感谢您的回复。我知道在spring hadoop中我们只需要在相应的xml文件中进行作业配置即可。目前,在我的应用程序中,在设置工作时,我有如下代码:

这是为了让我将信息存储在减速器内的相关表中。所以我的问题是如何在 Spring-hadoop 中为 MultiOutputFormat 做相应的配置?我检查了 spring-hadoop.xsd。找不到任何相关的标签。

0 投票
1 回答
175 浏览

hadoop - Spring Yarn @OnContainerStart - 如何调用 Mapper?

我在 Spring Boot 中使用 Spring Yarn 包,我试图弄清楚如何从 @OnContainerStart 事件启动 Mapper。我如何将参数传递给映射器?如何配置要使用的映射器/减速器?我正在尝试遵循本指南

谢谢

0 投票
2 回答
2193 浏览

hadoop - maven-shade-plugin vs maven-assembly-plugin

我使用 spring-data-hadoop 编写了一个 hadoop MR 作业,并使用 maven-shade-plugin 来打包所有必要的 jar。但是当我从命令行运行工作时:hadoop jar,它给了我 Spring-bean 的 ClassNotFound 异常。导致加载 spring 应用程序上下文的问题。在我使用 maven-assembly-plugin 并将所有需要的 jar 打包到 lib 文件夹中之后。这次奏效了。

我不明白为什么 maven-shade-plugin 会失败。有人可以帮助我理解我的观察。

0 投票
1 回答
2348 浏览

spring-boot - Spring Boot Yarn - 传递命令行参数

我正在尝试在我的 Spring Boot Yarn 应用程序中传递命令行参数并且遇到了困难。我知道我可以在 yml 文档中设置这些,spring.yarn.appmaster.launchcontext.arguments但是如何从命令行设置呢?喜欢java -jar MyYarnApp.jar {arg0} {arg1}并从我的@YarnContainer?

我发现@YarnProperties映射到spring.yarn.appmaster.launchcontext.arguments但我想从命令行设置它们,而不是在 yml