问题标签 [spring-data-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Spring数据——hadoop连接
我正在尝试使用Spring Data - Hadoop从本地机器的 IDE 执行远程集群上的 MR 代码
Hadoop 1.1.2、Spring 3.2.4、Spring-Data-Hadoop 1.0.0
我的 bean 配置文件即。applicationContext.xml如下:
hadoop.properties
我正在做的java类'运行为......'
输出是:
很明显,集群上无法识别用户 298790(我的本地 Windows 机器用户) - 这就是配置中的原因。文件
- 如文档中所述,我在作业配置中指定了 user="bigdata" 。
- 医生。还提到:
SHDP 遵循 HDFS 权限,使用当前用户的身份(默认情况下)与文件系统交互。特别是,HdfsResourceLoader 在进行模式匹配时只考虑它应该看到的文件并且不执行任何特权操作。但是可以指定不同的用户,这意味着 ResourceLoader 使用该用户的权限与 HDFS 交互 - 但是这遵守用户模拟规则根据api,我决定使用HdfsResourceLoader但在文档 - 任何人都可以提供任何指针吗?
- 根据Hadoop Secure Impersonation,我相信我需要将我的 Windows 用户 298790 添加到远程集群机器(Ubuntu)用户组以及我的 Windows 主机名,如果没有大号,我认为这是不可行的。用户数量和不断变化的 Windows 客户端计算机。如果我的假设是正确的,可以做些什么来避免添加和配置所有这些用户?
/添加对 core-site.xml 的更改/
我重新启动了所有 Hadoop 进程,但错误仍然存在。
然后,我决定创建一个新用户即。298790 在远程 Ubuntu 机器上并将其添加到组 bigdata 以进行模拟:
但是现在当我尝试停止(然后启动)集群时,它会询问所有进程的密码:
现在错误稍作修改 - 它首先无法连接,然后模拟:
spring - 作业提交后的 ClassNotFoundException
我正在尝试使用Spring Data - Hadoop从本地机器的 IDE 执行远程集群上的 MR 代码
//Hadoop 1.1.2、Spring 3.2.4、Spring-Data-Hadoop 1.0.0
尝试使用这些版本:
Hadoop 1.2.1、Spring 4.0.1、Spring-Data-Hadoop 2.0.2
应用上下文.xml:
WordCounter.java:
输出是:
什么配置。我错过了吗?真的可以在不创建 jar 等的情况下使用 Spring Data 远程提交 Hadoop 作业吗?
java - 以后如何启动spring data hadoop作业?
我是 SpringData Hadoop 的新手。我从 www 中查看了一些示例,例如 [1]:https ://github.com/pkainulainen/spring-data-apache-hadoop-examples/tree/master/mapreduce
所有这些都配置为在启动时运行:
但我想通过 Servlet 运行这项工作。如何?
spring - 在 Spring-data hadoop 上运行作业时出现问题
我使用 Mahout 创建了以下 Mapper 和 Reducer
减少类
运行这个的 Spring 配置
当我运行它时,出现以下错误。我已经扩展了 Hadoop 映射器类,但 spring 说它不是映射器类。
java.lang.RuntimeException:类 mypackage.ItemSimilarity.ItemPrefMapper 不是 org.apache.hadoop.mapreduce.Mapper 在 org.apache.hadoop.conf.Configuration.setClass(Configuration.java:931) 在 org.apache.hadoop.mapreduce.Job.setMapperClass(Job.java:175) 在 org.springframework.data.hadoop.mapreduce.JobFactoryBean .afterPropertiesSet(JobFactoryBean.java:153) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.initializeBean(AbstractAutowireCapableBeanFactory.java:1509) at org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.invokeInitMethods(AbstractAutowireCapableBeanFactory.java:1571) ) 在 org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.createBean(AbstractAutowireCapableBeanFactory.java:458) 的 org.springframework.beans.factory.support.AbstractAutowireCapableBeanFactory.doCreateBean(AbstractAutowireCapableBeanFactory.java:521)
spring-data - Spring Data Hive 与 Hive 模板的集成
我正在尝试使用 spring data hadoop 将 hive 集成到我的应用程序中并遇到一些问题。我不确定的第一件事是<hdp:hive-server host="some-other-host" port="10001" />
连接到现有的配置单元服务器或创建一个新的配置单元服务器然后能够连接到它。其次,我的配置不会引发任何错误,所以它看起来还可以,甚至 hiveTemplate 自动装配也可以正常工作,但是当我执行查询时,我似乎没有得到任何响应。应用程序在这一点上卡住了。
这是配置
这就是我如何使用它
我在日志输出中看到的只是before hive query
.. 之后没有任何反应。我将不胜感激任何帮助。任何想法我可能做错了什么。
spring - 如何在 spring-hadoop 项目中从 HCatalog API 配置 MultiOutputFormat?
我正在开发一个hadoop应用程序。现在我想将它迁移到一个 spring-hadoop 项目中。事情在我的 mapreduce 工作中。我正在使用 HCatalog API 中的 MultiOutputFormat,因为我想将信息存储在多个表上。而且我找不到任何示例或文档说明如何在 Spring hadoop 中进行配置。
谁能告诉我该怎么做或给我一些参考资料?太谢谢了。
我正在开发一个hadoop应用程序。现在我想将它迁移到一个 spring-hadoop 项目中。事情在我的 mapreduce 工作中。我正在使用 HCatalog API 中的 MultiOutputFormat,因为我想将信息存储在多个表上。而且我找不到任何示例或文档说明如何在 Spring hadoop 中进行配置。
谁能告诉我该怎么做或给我一些参考资料?太谢谢了。
@Thomas Risberg 嗨,Thomas,感谢您的回复。我知道在spring hadoop中我们只需要在相应的xml文件中进行作业配置即可。目前,在我的应用程序中,在设置工作时,我有如下代码:
这是为了让我将信息存储在减速器内的相关表中。所以我的问题是如何在 Spring-hadoop 中为 MultiOutputFormat 做相应的配置?我检查了 spring-hadoop.xsd。找不到任何相关的标签。
hadoop - Spring Yarn @OnContainerStart - 如何调用 Mapper?
我在 Spring Boot 中使用 Spring Yarn 包,我试图弄清楚如何从 @OnContainerStart 事件启动 Mapper。我如何将参数传递给映射器?如何配置要使用的映射器/减速器?我正在尝试遵循本指南
谢谢
hadoop - maven-shade-plugin vs maven-assembly-plugin
我使用 spring-data-hadoop 编写了一个 hadoop MR 作业,并使用 maven-shade-plugin 来打包所有必要的 jar。但是当我从命令行运行工作时:hadoop jar,它给了我 Spring-bean 的 ClassNotFound 异常。导致加载 spring 应用程序上下文的问题。在我使用 maven-assembly-plugin 并将所有需要的 jar 打包到 lib 文件夹中之后。这次奏效了。
我不明白为什么 maven-shade-plugin 会失败。有人可以帮助我理解我的观察。
spring-boot - Spring Boot Yarn - 传递命令行参数
我正在尝试在我的 Spring Boot Yarn 应用程序中传递命令行参数并且遇到了困难。我知道我可以在 yml 文档中设置这些,spring.yarn.appmaster.launchcontext.arguments
但是如何从命令行设置呢?喜欢java -jar MyYarnApp.jar {arg0} {arg1}
并从我的@YarnContainer
?
我发现@YarnProperties
映射到spring.yarn.appmaster.launchcontext.arguments
但我想从命令行设置它们,而不是在 yml