问题标签 [sparkr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

762 问题

0 投票

2 回答

5821 浏览

r - 如何处理 SparkR 中的空条目

我有一个 SparkSQL 数据框。

此数据中的某些条目是空的，但它们的行为不像 NULL 或 NA。我怎样才能删除它们？有任何想法吗？

在 RI 中可以轻松删除它们，但在 sparkR 中它说 S4 系统/方法存在问题。

谢谢。

r apache-spark sparkr apache-spark-1.4

2015-07-23T21:46:37.883

0 投票

1 回答

1730 浏览

apache-spark - 将 SparkR 连接到 spark 集群

我有一个 Spark 集群在 10 台机器（1 - 10）上运行，主机在 1 台机器上。所有这些都在 CentOS 6.4 上运行。

我正在尝试使用 sparkR 将 jupyterhub 安装（由于在 CentOS 上安装的问题而在 ubuntu docker 内运行）连接到集群并获取 spark 上下文。

我正在使用的代码是

我得到的输出是

我正在使用 Spark 1.4.1。spark 集群也在运行 CDH 5。

jupyterhub 安装可以通过 pyspark 连接到集群，我有使用 pyspark 的 python 笔记本。

有人可以告诉我我做错了什么吗？

apache-spark sparkr

2015-07-24T14:26:36.940

0 投票

1 回答

170 浏览

apache-spark - 从 sparkR 作业中导出数据

我有一个与示例类似的 R 脚本，您可以在其中从 hdfs 加载一些数据，然后以某种方式存储它，在本例中是通过 Parquet 文件。

我究竟如何将集群中的数据检索到另一个 Spark 应用程序中？我目前正在考虑连接到 hdfs master 并根据这个 example检索文件，除了用 scrooge替换 sbt-thrift替换 sbt-thrift 。

有没有更惯用的方法来检索数据而无需直接连接到 hadoop 集群？我考虑将数据从 hdfs 中复制出来，但是 parquet 只能从我所理解的 hadoop 中读取。

apache-spark sparkr

2015-07-24T16:27:28.120

0 投票

2 回答

2807 浏览

r - 如何对 SparkR 数据框进行子集化

假设我们有一个数据集“people”，其中包含 ID 和 Age 作为 2 乘 3 矩阵。

在 sparkR 中，我想创建一个新数据集people2，其中包含所有 18 岁以上的 ID。在这种情况下，它是 ID 1 和 3。在 sparkR 中，我会这样做

但它不起作用。您将如何创建新数据集？

r apache-spark sparkr

2015-07-25T11:26:23.487

0 投票

1 回答

50 浏览

r - 使用从 SparkR 到 R 的保存向量

我从 sparkR 中保存了一个长向量。我想保存它并在 R 中使用这个向量。向量是 u=c(1,2,3,5,6,9,...) 我想使用这个向量作为数据集中的条目：data[ u,] 这怎么办？

r apache-spark sparkr

2015-07-28T08:38:50.137

0 投票

1 回答

607 浏览

r - 使用 sparkR 列

SparkR Column 提供了一长串有用的方法，例如“isNull”，但在 sparkR 中我在使用它们时遇到了问题。我像这样在 R 中运行 sparkR

cd /home/ole/R/spark-1.4.0 ./bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3 sqlContext

例如，当我键入此 u=c() isNull(u) 时，我收到此消息 Error in (function (classes, fdef, mtable) : unable to find an inherit method for function 'isNull' for signature '"NULL"

r sparkr

2015-07-28T10:43:41.123

0 投票

2 回答

3488 浏览

r - 使用 SparkR 获取特定行

我在 SparkR 中有一个 DataFrame 类型的数据集“数据”。例如，我想获得条目号 50。在 RI 中只需键入data[50,]，但是当我在 sparkR 中执行此操作时，我会收到此消息

“错误：'S4' 类型的对象不是子集”

我能做些什么来解决这个问题？

此外：如何向数据添加一列（具有相同的列大小）？

r apache-spark sparkr

2015-07-28T12:44:04.963

0 投票

1 回答

119 浏览

r - 将函数值保存在 SparkR 中的文件中

我有一些计算值，我想将它们保存在 SparkR 中。

如果我将其保存为 csv 文件

由于某种原因需要很长时间。有一个更好的方法吗？

r sparkr

2015-07-29T09:55:59.880

0 投票

2 回答

218 浏览

sparkr - 如何在 sparkR 中创建一个新的 DataFrame

在 sparkR 中，我有data一个 DataFrame。我可以像这样附加一个条目data：

我怎样才能附加多个？
假设我想附加向量中的所有元素，list <- c(1,6,10,11,14)或者如果list是 DataFrame 1 6 10 11 14。

如果我这样做，我会得到一个错误。

sparkr

2015-07-31T10:08:38.093

0 投票

0 回答

743 浏览

apache-spark - 使用 saveAsTable 命令使用 HiveContext 保存 sparkR 数据帧

使用 saveAsTable 命令使用 HiveContext 时如何保存 sparkR 数据帧

如何使用saveAsTable(df, tableName, source, mode, ...)保存df_5(data frame)到配置单元表中Report02_cashier_hourly。

apache-spark dataframe apache-spark-sql sparkr

2015-08-03T06:04:12.350

1 2 3 4 5 6 7 8 9 10

问题标签 [sparkr]

Reference