0

我正在尝试按照sparklyrRStudio 的教程将 R 连接到 Spark:http: //spark.rstudio.com/

但是有些方法,我收到一条奇怪的错误消息,如下所示。有谁知道如何解决这个问题?我试图将C:\Windows\system32路径添加到系统变量路径但没有成功。谢谢你的帮助。

> library(sparklyr)
> sc <- spark_connect(master = "local")
Error in sparkapi::start_shell(master = master, spark_home = spark_home,  : 
  Failed to launch Spark shell. Ports file does not exist.
    Path: C:\Users\Gaud\AppData\Local\rstudio\spark\Cache\spark-1.6.1-bin-hadoop2.6\bin\spark-submit.cmd
    Parameters: --jars, "C:\Users\Gaud\Documents\R\win-library\3.3\sparklyr\java\sparklyr.jar", --packages, "com.databricks:spark-csv_2.11:1.3.0","com.amazonaws:aws-java-sdk-pom:1.10.34", sparkr-shell, C:\Users\Gaud\AppData\Local\Temp\RtmpC8MAa8\file322c47ee2a28.out
4

4 回答 4

2

我最近遇到了同样的问题。RStudio GitHub sparklyr pages讨论了这个错误。

你能提供你的sessionInfo()结果吗?它的输出揭示了正在使用的包版本和操作系统。

对我有帮助的两个要点:

  • 使用安装 Sparkspark_install()
  • 安装开发。sparklyr 版本使用devtools::install_github("rstudio/sparklyr")

检查 sparklyr 包的版本。就我而言,问题仅在更新到 version 后才消失sparklyr_0.4.11

于 2016-10-06T12:34:06.627 回答
1

从 github 存储库安装最新的 sparklyr 。

如果您的服务器上没有互联网,安装 sparklyr 的步骤。

  • 安装 R 包 devtools 和 git2r
  • 从 git 下载主 zip 文件
  • 在windows路径上解压
  • 创建源:source <- devtools:::source_pkg("windows path/master directory name")
  • 安装(来源)
于 2016-11-03T04:57:26.387 回答
0

基于https://github.com/rstudio/sparklyr/issues/114,以下内容对我有用:

sc <- spark_connect(master = "local", config = list())
于 2016-12-08T18:56:36.300 回答
0

首先,您需要确保您拥有最新版本的 RStudio,如果您使用的是最新版本(从此处关闭 RStudio 后下载并安装):https ://www.rstudio.com/products/rstudio/download /预习/

    library(DBI)
    library(lazyeval)
    library(dplyr)
    library(devtools)
    # install_github("rstudio/sparkapi")
    library(sparkapi)
    # install_github("rstudio/sparklyr")
    library(sparklyr)
    library(yaml)
    library(nycflights13)

    # Note: Only perform Spark once
    spark_install(version = "1.6.1")

    # Connect to Spark through connection
    sc <- spark_connect(master = "local")
    iris_tbl <- copy_to(sc, iris, "iris", overwrite = TRUE)
    flights_tbl <- copy_to(sc, nycflights13::flights, "flights", overwrite = TRUE)
    class(flights_tbl)


 flights_preview <- DBI::dbGetQuery(sc, "SELECT * FROM flights LIMIT 10")
    flights_preview

将在 Windows 10 中输出:

# year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay carrier flight tailnum origin
# 1  2013     1   1      517            515         2      830            819        11      UA   1545  N14228    EWR
# 2  2013     1   1      533            529         4      850            830        20      UA   1714  N24211    LGA
# 3  2013     1   1      542            540         2      923            850        33      AA   1141  N619AA    JFK
# 4  2013     1   1      544            545        -1     1004           1022       -18      B6    725  N804JB    JFK
# 5  2013     1   1      554            600        -6      812            837       -25      DL    461  N668DN    LGA
# 6  2013     1   1      554            558        -4      740            728        12      UA   1696  N39463    EWR
# 7  2013     1   1      555            600        -5      913            854        19      B6    507  N516JB    EWR
# 8  2013     1   1      557            600        -3      709            723       -14      EV   5708  N829AS    LGA
# 9  2013     1   1      557            600        -3      838            846        -8      B6     79  N593JB    JFK
# 10 2013     1   1      558            600        -2      753            745         8      AA    301  N3ALAA    LGA
于 2016-07-21T01:32:56.350 回答