问题标签 [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5821 浏览

r - 如何处理 SparkR 中的空条目

我有一个 SparkSQL 数据框。

此数据中的某些条目是空的,但它们的行为不像 NULL 或 NA。我怎样才能删除它们?有任何想法吗?

在 RI 中可以轻松删除它们,但在 sparkR 中它说 S4 系统/方法存在问题。

谢谢。

0 投票
1 回答
1730 浏览

apache-spark - 将 SparkR 连接到 spark 集群

我有一个 Spark 集群在 10 台机器(1 - 10)上运行,主机在 1 台机器上。所有这些都在 CentOS 6.4 上运行。

我正在尝试使用 sparkR 将 jupyterhub 安装(由于在 CentOS 上安装的问题而在 ubuntu docker 内运行)连接到集群并获取 spark 上下文。

我正在使用的代码是

我得到的输出是

我正在使用 Spark 1.4.1。spark 集群也在运行 CDH 5。

jupyterhub 安装可以通过 pyspark 连接到集群,我有使用 pyspark 的 python 笔记本。

有人可以告诉我我做错了什么吗?

0 投票
1 回答
170 浏览

apache-spark - 从 sparkR 作业中导出数据

我有一个与示例类似的 R 脚本,您可以在其中从 hdfs 加载一些数据,然后以某种方式存储它,在本例中是通过 Parquet 文件。

我究竟如何将集群中的数据检索到另一个 Spark 应用程序中?我目前正在考虑连接到 hdfs master 并根据这个 example检索文件,除了用 scrooge替换 sbt-thrift替换 sbt-thrift 。

有没有更惯用的方法来检索数据而无需直接连接到 hadoop 集群?我考虑将数据从 hdfs 中复制出来,但是 parquet 只能从我所理解的 hadoop 中读取。

0 投票
2 回答
2807 浏览

r - 如何对 SparkR 数据框进行子集化

假设我们有一个数据集“people”,其中包含 ID 和 Age 作为 2 乘 3 矩阵。

在 sparkR 中,我想创建一个新数据集people2,其中包含所有 18 岁以上的 ID。在这种情况下,它是 ID 1 和 3。在 sparkR 中,我会这样做

但它不起作用。您将如何创建新数据集?

0 投票
1 回答
50 浏览

r - 使用从 SparkR 到 R 的保存向量

我从 sparkR 中保存了一个长向量。我想保存它并在 R 中使用这个向量。向量是 u=c(1,2,3,5,6,9,...) 我想使用这个向量作为数据集中的条目:data[ u,] 这怎么办?

0 投票
1 回答
607 浏览

r - 使用 sparkR 列

SparkR Column 提供了一长串有用的方法,例如“isNull”,但在 sparkR 中我在使用它们时遇到了问题。我像这样在 R 中运行 sparkR

cd /home/ole/R/spark-1.4.0 ./bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3 sqlContext

例如,当我键入此 u=c() isNull(u) 时,我收到此消息 Error in (function (classes, fdef, mtable) : unable to find an inherit method for function 'isNull' for signature '"NULL"

0 投票
2 回答
3488 浏览

r - 使用 SparkR 获取特定行

我在 SparkR 中有一个 DataFrame 类型的数据集“数据”。例如,我想获得条目号 50。在 RI 中只需键入data[50,],但是当我在 sparkR 中执行此操作时,我会收到此消息

“错误:'S4' 类型的对象不是子集”

我能做些什么来解决这个问题?

此外:如何向数据添加一列(具有相同的列大小)?

0 投票
1 回答
119 浏览

r - 将函数值保存在 SparkR 中的文件中

我有一些计算值,我想将它们保存在 SparkR 中。

如果我将其保存为 csv 文件

由于某种原因需要很长时间。有一个更好的方法吗 ?

0 投票
2 回答
218 浏览

sparkr - 如何在 sparkR 中创建一个新的 DataFrame

在 sparkR 中,我有data一个 DataFrame。我可以像这样附加一个条目data

我怎样才能附加多个?
假设我想附加向量中的所有元素,list <- c(1,6,10,11,14)或者如果list是 DataFrame 1 6 10 11 14

如果我这样做,我会得到一个错误。

0 投票
0 回答
743 浏览

apache-spark - 使用 saveAsTable 命令使用 HiveContext 保存 sparkR 数据帧

使用 saveAsTable 命令使用 HiveContext 时如何保存 sparkR 数据帧

如何使用saveAsTable(df, tableName, source, mode, ...)保存df_5(data frame)到配置单元表中Report02_cashier_hourly