问题标签 [rhadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mahout - RHadoop 与 Apache Mahout
我想开始为大数据开发一个推荐系统,比如每天 2GB 的日志数据。为此,在 Rhadoop 和 Apache Mahout 之间,首选哪一个?
请从不同方面回答这个问题,例如代码的可用性,速度等。
hadoop - 访问在 Ubuntu 主机上运行的 Cloudera VM 上的 RStudio 服务器
我想做的事:访问 RStudio WebGUI,从 OSX 浏览器在 Ubuntu 主机上的 Cloudera Quickstart VM 上运行。
这是有效的: 1. Ubuntu 主机正在运行 Cloudera Quickstart VM 2. Cloudera VM 已安装并运行 R 和 RStudio Server。可从 Cloudera VM 访问 WebGUI。
我不能:我无法从我的 OSX 浏览器访问我的 WebGUI。它只是超时。
有趣的是,我可以通过端口访问主机 IP 上 VM 上的 Cloudera Manager,但我无法通过同一 IP 访问 VM 上的 RStudio 服务器。关于我应该从哪里开始的任何线索?
mapreduce - Hadoop流命令无法在R中工作
我已经在 ubuntu 16.04 上安装了 hadoop 2.7.2,我还在单节点集群上安装了 Rstudio 和 Rhadoop (rmr2,rhdfs,rhbase)。RHadoop 软件包安装在此目录中:“/home/hduser/R/x86_64-pc-linux-gnu-library/3.2/”。但是,当我使用简单示例并且 hadoop 流失败时出现错误。Blow 更详细:谁能帮帮我?
每当我加载 rmr2 包时,我也会收到此警告消息:
library("rmr2", lib.loc="~/R/x86_64-pc-linux-gnu-library/3.2") 警告消息:S3 方法 'gorder.default'、'gorder.factor'、'gorder.data。 frame'、'gorder.matrix'、'gorder.raw' 在 NAMESPACE 中声明但未找到
r - 无法使用 rimpala.connect() 在 Impala 和 Rstudio 之间建立连接
我无法在 Impala 和 RStudio 之间建立连接。
我正在为 Cloudera Manager 和 RStudio 使用 Cloudera quickstart vm
请参阅下面的代码并告知是否可以做任何事情:
初始化
输出
连接
输出
java - 如何使用 Rhdfs 包从 HDFS 检索 TB 的数据?
如何使用 Rhdfs 包从 HDFS 检索 TB 的数据,因为数据存储在多台机器上,而 R 在单台机器上运行。
这么多数据如何存储在单个系统上的 R 数据框中。如果是这样,那么庞大的数据如何存储在单个硬件中,这基本上与大数据存储概念相冲突。
out-of-memory - R Hadoop内存问题
我正在尝试使用 rmr2 在 hadoop 上运行 kmeans 集群的分布式实现(在伪分布式模式下使用 Hadoop 2.6.0-cdh5.4.2 的单机集群上)。只要数据文件大小(在 HDFS 上)很小(大约 1000 个数据点),它就可以正常工作。
但是当我将点数增加到 5000 点时,仍然非常小(数据文件的大小只有 ~1MB),它开始抛出如下错误:
container_1473314686409_0005_01_000006 运行超出物理内存限制。当前使用情况:已使用 1.5 GB 的 1 GB 物理内存;使用了 3.2 GB 的 2.1 GB 虚拟内存。杀死容器。
我已经从其他帖子中尝试过以下内容,但没有任何影响:
我的操作系统版本是:Linux quickstart.cloudera 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux
首先我不明白为什么它需要> 1G内存来处理一个小文件。
其次,我想将实现扩展到巨大的数据集(至少几 GB)。我怎样才能做到这一点?
最后,我发现大多数(如果不是全部)R-hadoop 帖子都已经很老了,人们在 2014 年之后停止使用 R-hadoop 了吗?Spark-R 是更好的选择吗?
任何有关这些方面的帮助将不胜感激。
arules - RHadoop - Rstudio - 安装 arulesViz 库
我正在尝试在 Cloudera Machine 中使用 RStudion 安装 arulesViz 库。为此,我正在执行:
但我收到以下错误:
我怎么解决这个问题?
谢谢!
rhadoop - RHadoop Map reduce 作业失败,出现以下错误
错误:java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1 at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:320) at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished (PipeMapRed.java:533) 在 org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130) 在 org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61) 在 org.apache。 hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34) at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:430) at org.apache.hadoop.mapred.MapTask.run(MapTask.java: 342) 在 org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:167) 在 java.security.AccessController.doPrivileged(Native Method) 在 javax.security.auth.Subject.doAs(Subject.java:415 ) 在组织。apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1556) 在 org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:162)
json - JSON 作为 mapreduce 中的输入
我有一个 JSON 文件包含诸如 machine_id、category 和 ... Category 包含机器的状态,例如“alarm”、“failure”。我只是想看看每个 machine_id 使用rmr2报告了多少次。例如,如果我有以下内容:
我喜欢看到这个结果:
我做了什么:我编写了一个简单的 mapreduce 来读取 JSON 文件的值,并将其用作第二个 mapreduce 的输入。代码是:
不幸的是,它只返回 JSON 文件的最后两个值。它似乎没有读取 JSON 文件的全部值。我将不胜感激任何帮助。
r - Rhadoop 中的 SI 模型
我想使用 SI 模型测量我的图表上的信息扩散。我定义了一组初始感染节点。我是基于这个代码:网络扩散的易感感染模型来开发我的合适的。但是当我在 5000 个节点的图中运行我的代码时,它会在几个小时内运行。这是我的代码:
初始感染节点的每个节点都以一定的概率感染他的邻居,因此作为输出,我们得到每个步骤中感染节点的列表。
我想调整此代码以在 RHadoop 系统上运行。但我是 RHadoop 的新手。我不知道我应该在哪里修改,我怎么能在hadoop上介绍我的图表?请问有什么建议吗?