问题标签 [sparkr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
rstudio - 在 RStudio 中加载 SparkR:错误 [找不到函数“launchBackend”]
无法加载SparkR
到我的RStudio
. 当我尝试加载火花上下文时,出现错误:
找不到函数“launchBackend”。
我可以sparkR
在我的终端 shell 上工作,但这也是因为我不必加载 spark 上下文(它似乎已经存在了)。有什么帮助吗?
r - sparkR中函数的运行时间
在 sparkR 中,我有一个包含用户数据的 DataFrame 'pgz'。要获取 'pgz' 中的所有 user_id 1,我们只需键入
我有一个“列表”,它是一个 DataFrame。它只包含数字 (1,3,4,5,11,25,....)。我将其设为本地,以便获取条目。
现在'localliste'是一个data.frame。然后我有一个函数'lev'
返回't'。当我在小 j 上运行此功能时,该功能非常快。计算 t 大约需要 0.01 秒。当我选择一个较大的 j 时,该函数需要更长的时间来计算 t。当 j=1002 时,计算 lev(j) 需要 40 秒。
这是一件奇怪的事情。运行'lev'中的第一行不需要时间,而是行
大 j 需要时间。然而,如果 j=1000 或 j=50000 运行时间为 40 秒,则无关紧要,但对于 j=25,运行时间约为 1 秒。这是为什么 ?
sparkr - 在 sparkR 中将字符串转换为日期
我在 sparkR 中有这个 data.frame
我把它做成一个 DataFrame
我想将日期(现在是字符串)转换为“日期”类型。我使用“演员”功能
但是现在当我使用 head(dft) 时,我可以看到“时间”只包含 NA。
也许应该在“cast”函数中添加一些东西,或者在使用它之前应该加载一个包?另一种方法可以在 data.frame 上使用“as.Date”,但大数据需要时间。
我对“整数”有完全相同的问题。如果我输入
时间会产生NA。
sparkr - 减去 sparkR 列中的所有元素
我在 sparkR 中有 DataFrame 'res'。'res' 包含 ID 和日期。所以第一个条目看起来像这样 'ID' = 1 2 3 ... 和 'date' = "2012-6-5", "2013-5-5", "2015-10-11" ...
我想创建一个新数据集,其中所有“日期”都用“2010-01-01”减去。如何才能做到这一点?如果我只想用整数减去 DataFrame 中的所有元素,我会遇到完全相同的问题。
在 sparkR 我试过这个
这次运行,但是当我输入 head(newres) 时出现错误:消息:“returnstatus==0 is not True”。
sparkr - 将类型“double”强制转换为 sparkR 中的整数
我在 sparkR 'u' 中有一个 DataFrame,其中包含 ID = 1 1 1 1 ... 和年龄 = 21 23 33 21 ... 取“年龄”的总和,我这样做
现在 sumage 是一个 double 类型的 DataFrame。我想把 sumage 作为一个整数,所以我试试这个
但我收到此消息:“sumu<- agg(u, amount_spent="sum") 无法将 'S4' 类型强制转换为 'double' 类型的向量”
关于这个还能做什么 ?
sparkr - 在 sparkR 中使用过滤器的更快方法
我有一个包含 user_id 的 DataFrame 'data'。要获得所有 user_id=1 我只是这样做
假设我想创建一个新的 DataFrame 'new_data',其中包含前 10 个 user_id,即 user_id= 1, 2 , 3 ,..., 10。
SparkR 中的一种方法是
这很好用,但是对于大 j 可能需要一些时间。一定有更聪明、更简单的方法来做到这一点?
java - unsupported major minor version error 51.0
Hi i am trying to run the sparkR in the cluster.when i am running the sparkR using yarn client i am getting error.
i tried the following query.
any help will be appreciated.
sparkr - 如何在 sparkR 中对日期进行过滤功能
'u' 是一个包含 ID = 1, 2, 3 .. 和 time= "2010-01-01", "2012-04-06", .. ID 和 time 的 DataFrame 具有字符串类型。我将时间类型转换为“日期”
我现在想在你的第一次。
我现在通过在第一次添加 150 天来创建一个新时间
我现在想做一个子集。我想要一个新的“你”,时间从前 150 天开始。
但这不能在 sparkR 中运行。我收到此消息“returnstatus==0 is not TRUE”。
r - 初始化 sparkR 时出错:10 秒后 JVM 未准备好
我目前正在使用 sparkR 测试一个应用程序。这是我的平台和应用程序详细信息:
平台:Windows server 2008 SparkR 版本:R 版本 3.1.2 (2014-10-31) Spark 版本:1.4.1 版
我做了什么?
第 I 步:将包加载到 R 环境中
图书馆(SparkR)——工作
第二步:设置系统环境变量
Sys.setenv(SPARK_HOME = "C:\hdp\spark-1.4.1-bin-hadoop2.6") -- 工作 .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"),.libPaths()))
第三步:创建 Spark 上下文和 SQL 上下文
sc <- sparkR.init(master = "local",sparkHome = "C:\hdp\spark-1.4.1-bin-hadoop2.6",appName = "TestSparR")
在这一行出现错误,即 10 秒后 JVM 未准备好
请帮我解决这个问题。谢谢。
sparkr - 使用 sum 函数获取 sparkR 中的值
我在 sparkR 中有一个 DataFrame 'data',其中包含 ID= 1,2,.. 和 amount= 232, 303, 444, 10, ... 我想检查金额的总和是否大于 5000。
现在 sparkR 如果它的 TRUE 和 FALSE 否则应该返回 TRUE 但我得到的只是这条消息
我如何检查它是否属实?