问题标签 [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1311 浏览

rstudio - 在 RStudio 中加载 SparkR:错误 [找不到函数“launchBackend”]

无法加载SparkR到我的RStudio. 当我尝试加载火花上下文时,出现错误:

找不到函数“launchBackend”。

我可以sparkR在我的终端 shell 上工作,但这也是因为我不必加载 spark 上下文(它似乎已经存在了)。有什么帮助吗?

0 投票
1 回答
120 浏览

r - sparkR中函数的运行时间

在 sparkR 中,我有一个包含用户数据的 DataFrame 'pgz'。要获取 'pgz' 中的所有 user_id 1,我们只需键入

我有一个“列表”,它是一个 DataFrame。它只包含数字 (1,3,4,5,11,25,....)。我将其设为本地,以便获取条目。

现在'localliste'是一个data.frame。然后我有一个函数'lev'

返回't'。当我在小 j 上运行此功能时,该功能非常快。计算 t 大约需要 0.01 秒。当我选择一个较大的 j 时,该函数需要更长的时间来计算 t。当 j=1002 时,计算 lev(j) 需要 40 秒。

这是一件奇怪的事情。运行'lev'中的第一行不需要时间,而是行

大 j 需要时间。然而,如果 j=1000 或 j=50000 运行时间为 40 秒,则无关紧要,但对于 j=25,运行时间约为 1 秒。这是为什么 ?

0 投票
0 回答
1620 浏览

sparkr - 在 sparkR 中将字符串转换为日期

我在 sparkR 中有这个 data.frame

我把它做成一个 DataFrame

我想将日期(现在是字符串)转换为“日期”类型。我使用“演员”功能

但是现在当我使用 head(dft) 时,我可以看到“时间”只包含 NA。

也许应该在“cast”函数中添加一些东西,或者在使用它之前应该加载一个包?另一种方法可以在 data.frame 上使用“as.Date”,但大数据需要时间。

我对“整数”有完全相同的问题。如果我输入

时间会产生NA。

0 投票
1 回答
243 浏览

sparkr - 减去 sparkR 列中的所有元素

我在 sparkR 中有 DataFrame 'res'。'res' 包含 ID 和日期。所以第一个条目看起来像这样 'ID' = 1 2 3 ... 和 'date' = "2012-6-5", "2013-5-5", "2015-10-11" ...

我想创建一个新数据集,其中所有“日期”都用“2010-01-01”减去。如何才能做到这一点?如果我只想用整数减去 DataFrame 中的所有元素,我会遇到完全相同的问题。

在 sparkR 我试过这个

这次运行,但是当我输入 head(newres) 时出现错误:消息:“returnstatus==0 is not True”。

0 投票
1 回答
526 浏览

sparkr - 将类型“double”强制转换为 sparkR 中的整数

我在 sparkR 'u' 中有一个 DataFrame,其中包含 ID = 1 1 1 1 ... 和年龄 = 21 23 33 21 ... 取“年龄”的总和,我这样做

现在 sumage 是一个 double 类型的 DataFrame。我想把 sumage 作为一个整数,所以我试试这个

但我收到此消息:“sumu<- agg(u, amount_spent="sum") 无法将 'S4' 类型强制转换为 'double' 类型的向量”

关于这个还能做什么 ?

0 投票
1 回答
326 浏览

sparkr - 在 sparkR 中使用过滤器的更快方法

我有一个包含 user_id 的 DataFrame 'data'。要获得所有 user_id=1 我只是这样做

假设我想创建一个新的 DataFrame 'new_data',其中包含前 10 个 user_id,即 user_id= 1, 2 , 3 ,..., 10。

SparkR 中的一种方法是

这很好用,但是对于大 j 可能需要一些时间。一定有更聪明、更简单的方法来做到这一点?

0 投票
0 回答
721 浏览

java - unsupported major minor version error 51.0

Hi i am trying to run the sparkR in the cluster.when i am running the sparkR using yarn client i am getting error.

i tried the following query.

any help will be appreciated.

0 投票
1 回答
426 浏览

sparkr - 如何在 sparkR 中对日期进行过滤功能

'u' 是一个包含 ID = 1, 2, 3 .. 和 time= "2010-01-01", "2012-04-06", .. ID 和 time 的 DataFrame 具有字符串类型。我将时间类型转换为“日期”

我现在想在你的第一次。

我现在通过在第一次添加 150 天来创建一个新时间

我现在想做一个子集。我想要一个新的“你”,时间从前 150 天开始。

但这不能在 sparkR 中运行。我收到此消息“returnstatus==0 is not TRUE”。

0 投票
2 回答
5196 浏览

r - 初始化 sparkR 时出错:10 秒后 JVM 未准备好

我目前正在使用 sparkR 测试一个应用程序。这是我的平台和应用程序详细信息:

平台:Windows server 2008 SparkR 版本:R 版本 3.1.2 (2014-10-31) Spark 版本:1.4.1 版

我做了什么?

第 I 步:将包加载到 R 环境中

图书馆(SparkR)——工作

第二步:设置系统环境变量

Sys.setenv(SPARK_HOME = "C:\hdp\spark-1.4.1-bin-hadoop2.6") -- 工作 .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"),.libPaths()))

第三步:创建 Spark 上下文和 SQL 上下文

sc <- sparkR.init(master = "local",sparkHome = "C:\hdp\spark-1.4.1-bin-hadoop2.6",appName = "TestSparR")

在这一行出现错误,即 10 秒后 JVM 未准备好

请帮我解决这个问题。谢谢。

0 投票
1 回答
641 浏览

sparkr - 使用 sum 函数获取 sparkR 中的值

我在 sparkR 中有一个 DataFrame 'data',其中包含 ID= 1,2,.. 和 amount= 232, 303, 444, 10, ... 我想检查金额的总和是否大于 5000。

现在 sparkR 如果它的 TRUE 和 FALSE 否则应该返回 TRUE 但我得到的只是这条消息

我如何检查它是否属实?