“rhadoop”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

377 浏览

mahout - RHadoop 与 Apache Mahout

我想开始为大数据开发一个推荐系统，比如每天 2GB 的日志数据。为此，在 Rhadoop 和 Apache Mahout 之间，首选哪一个？

请从不同方面回答这个问题，例如代码的可用性，速度等。

2016-05-30T06:21:00.730

0 投票

1 回答

241 浏览

hadoop - 访问在 Ubuntu 主机上运行的 Cloudera VM 上的 RStudio 服务器

我想做的事：访问 RStudio WebGUI，从 OSX 浏览器在 Ubuntu 主机上的 Cloudera Quickstart VM 上运行。

这是有效的： 1. Ubuntu 主机正在运行 Cloudera Quickstart VM 2. Cloudera VM 已安装并运行 R 和 RStudio Server。可从 Cloudera VM 访问 WebGUI。

我不能：我无法从我的 OSX 浏览器访问我的 WebGUI。它只是超时。

有趣的是，我可以通过端口访问主机 IP 上 VM 上的 Cloudera Manager，但我无法通过同一 IP 访问 VM 上的 RStudio 服务器。关于我应该从哪里开始的任何线索？

hadoop rstudio cloudera rhadoop cloudera-quickstart-vm

2016-06-16T19:32:00.437

0 投票

0 回答

96 浏览

mapreduce - Hadoop流命令无法在R中工作

我已经在 ubuntu 16.04 上安装了 hadoop 2.7.2，我还在单节点集群上安装了 Rstudio 和 Rhadoop (rmr2,rhdfs,rhbase)。RHadoop 软件包安装在此目录中：“/home/hduser/R/x86_64-pc-linux-gnu-library/3.2/”。但是，当我使用简单示例并且 hadoop 流失败时出现错误。Blow 更详细：谁能帮帮我？

这是错误的图像

每当我加载 rmr2 包时，我也会收到此警告消息：

library("rmr2", lib.loc="~/R/x86_64-pc-linux-gnu-library/3.2") 警告消息：S3 方法 'gorder.default'、'gorder.factor'、'gorder.data。 frame'、'gorder.matrix'、'gorder.raw' 在 NAMESPACE 中声明但未找到

mapreduce rstudio hadoop-streaming rhadoop

2016-06-18T10:10:53.583

0 投票

0 回答

379 浏览

r - 无法使用 rimpala.connect() 在 Impala 和 Rstudio 之间建立连接

我无法在 Impala 和 RStudio 之间建立连接。

我正在为 Cloudera Manager 和 RStudio 使用 Cloudera quickstart vm

请参阅下面的代码并告知是否可以做任何事情：

初始化

输出

连接

输出

r rhadoop cloudera-quickstart-vm

2016-07-10T22:14:02.513

0 投票

0 回答

59 浏览

java - 如何使用 Rhdfs 包从 HDFS 检索 TB 的数据？

如何使用 Rhdfs 包从 HDFS 检索 TB 的数据，因为数据存储在多台机器上，而 R 在单台机器上运行。

这么多数据如何存储在单个系统上的 R 数据框中。如果是这样，那么庞大的数据如何存储在单个硬件中，这基本上与大数据存储概念相冲突。

java hadoop mapreduce rhadoop

2016-07-28T09:56:36.277

0 投票

0 回答

70 浏览

out-of-memory - R Hadoop内存问题

我正在尝试使用 rmr2 在 hadoop 上运行 kmeans 集群的分布式实现（在伪分布式模式下使用 Hadoop 2.6.0-cdh5.4.2 的单机集群上）。只要数据文件大小（在 HDFS 上）很小（大约 1000 个数据点），它就可以正常工作。

但是当我将点数增加到 5000 点时，仍然非常小（数据文件的大小只有 ~1MB），它开始抛出如下错误：

container_1473314686409_0005_01_000006 运行超出物理内存限制。当前使用情况：已使用 1.5 GB 的 1 GB 物理内存；使用了 3.2 GB 的 2.1 GB 虚拟内存。杀死容器。

我已经从其他帖子中尝试过以下内容，但没有任何影响：

我的操作系统版本是：Linux quickstart.cloudera 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

首先我不明白为什么它需要> 1G内存来处理一个小文件。

其次，我想将实现扩展到巨大的数据集（至少几 GB）。我怎样才能做到这一点？

最后，我发现大多数（如果不是全部）R-hadoop 帖子都已经很老了，人们在 2014 年之后停止使用 R-hadoop 了吗？Spark-R 是更好的选择吗？

任何有关这些方面的帮助将不胜感激。

out-of-memory rhadoop

2016-09-08T08:04:02.510

0 投票

1 回答

727 浏览

arules - RHadoop - Rstudio - 安装 arulesViz 库

我正在尝试在 Cloudera Machine 中使用 RStudion 安装 arulesViz 库。为此，我正在执行：

但我收到以下错误：

我怎么解决这个问题？

谢谢！

arules rhadoop cloudera-quickstart-vm

2016-10-22T14:20:19.337

0 投票

0 回答

32 浏览

rhadoop - RHadoop Map reduce 作业失败，出现以下错误

错误：java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1 at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:320) at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished (PipeMapRed.java:533) 在 org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130) 在 org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61) 在 org.apache。 hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34) at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:430) at org.apache.hadoop.mapred.MapTask.run(MapTask.java: 342) 在 org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:167) 在 java.security.AccessController.doPrivileged(Native Method) 在 javax.security.auth.Subject.doAs(Subject.java:415 ) 在组织。apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1556) 在 org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:162)

rhadoop

2016-12-03T23:03:39.077

0 投票

0 回答

97 浏览

json - JSON 作为 mapreduce 中的输入

我有一个 JSON 文件包含诸如 machine_id、category 和 ... Category 包含机器的状态，例如“alarm”、“failure”。我只是想看看每个 machine_id 使用rmr2报告了多少次。例如，如果我有以下内容：

我喜欢看到这个结果：

我做了什么：我编写了一个简单的 mapreduce 来读取 JSON 文件的值，并将其用作第二个 mapreduce 的输入。代码是：

不幸的是，它只返回 JSON 文件的最后两个值。它似乎没有读取 JSON 文件的全部值。我将不胜感激任何帮助。

json r hadoop rhadoop

2017-01-05T03:53:20.247

0 投票

0 回答

50 浏览

r - Rhadoop 中的 SI 模型

我想使用 SI 模型测量我的图表上的信息扩散。我定义了一组初始感染节点。我是基于这个代码：网络扩散的易感感染模型来开发我的合适的。但是当我在 5000 个节点的图中运行我的代码时，它会在几个小时内运行。这是我的代码：

初始感染节点的每个节点都以一定的概率感染他的邻居，因此作为输出，我们得到每个步骤中感染节点的列表。

我想调整此代码以在 RHadoop 系统上运行。但我是 RHadoop 的新手。我不知道我应该在哪里修改，我怎么能在hadoop上介绍我的图表？请问有什么建议吗？

r graph igraph rhadoop

2017-03-01T10:05:53.953

问题标签 [rhadoop]

初始化

输出

连接

输出

Reference