问题标签 [sparkapi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
7309 浏览

r - sparklyr 可以与部署在纱线管理的 hadoop 集群上的 spark 一起使用吗?

sparklyrR 包是否能够连接到 YARN 管理的 hadoop 集群?这似乎没有记录在集群部署文档中。使用SparkRSpark 附带的软件包可以通过以下方式进行:

但是,当我将上面的最后几行替换为

我收到错误:

sparklyr替代方案SparkR还是建立在SparkR包装之上?

0 投票
1 回答
808 浏览

r - 在 Rstudio-Failed 中将 R 与 Spark 连接以启动 Spark shell。端口文件不存在

我正在尝试使用 Rstudio 将 R 与 Spark 的本地实例连接起来。但是,我收到显示的错误消息。我错过了什么?我正在使用 Windows 10。我正在关注rstudio上的教程。

我收到的错误消息:

0 投票
1 回答
220 浏览

java - 两个字符串之间的java spark单词匹配

我想知道两个不同长字符串的单词与 SPARK (Java Api) 之间是否存在某种巧合。

我怎么能这样做?

我创建了一种方法,但我认为它效率不高(迭代次数过多):

0 投票
1 回答
446 浏览

hadoop - 从 HBase 提取数据时在 RDD 中获取 Null 数据

我需要使用 Spark API 从 HBase 中提取数据,并像 SparkSQL 一样在数据顶部进行查询。

我做的事情如下:

  1. 创建 Spark conf 对象
  2. 创建 HBase 对象
  3. 编写 JAVPairRDD 来获取记录。

我的主类代码如下:

我的 Bean 类代码如下:

得到以下异常:

我的 Spark 和 HBase 工作正常。

请帮我解决这个问题。

0 投票
0 回答
497 浏览

apache-spark - 我可以使用 Spark 的 REST API 在 Workers 上获取 Spark 的版本吗

我知道我可以使用以下命令获取在 Spark Master 上运行的 Spark v2.2.1 版本:

这将返回类似

但是,我还想检查每个 Worker 上运行的 Spark 版本。我知道我可以得到所有工人的名单:

这将返回类似于

我想使用该信息来查询每个 Spark Worker 的版本。这可能吗?

0 投票
0 回答
76 浏览

python-2.7 - 在 python 中重命名 pyspark/Spark API 中的 Hadoop 服务器表

这是我的模拟代码,如您所见,我正在从一个表中读取数据,然后最终写入 Hadoop 服务器上的同一个表,但是我收到一个错误,即从同一个表读取时无法覆盖该表。

我找到了一个临时解决方法(通过写入一个临时表,然后将其导入一个新的 DataFrame,最后写入所需的表)但是,这似乎非常低效。

我希望有另一种方法,我可以简单地重命名从 spark API 中创建的 temp_table,但没有取得多大成功。

PS:请忽略缩进,我似乎无法在这里获得正确的格式。

0 投票
1 回答
546 浏览

apache-spark - Spark API:在 LIKE 语句中使用列值

在火花 API 中:

那么使用通配符来比较值的等效方法是什么?通配符可能会出现在连接中找到的列的字符串值中?

由于 like() 接受文字字符串而不是列而失败的示例:

?

0 投票
1 回答
252 浏览

apache-spark - Spark:Spark API 中是否有与 spark SQL 的 LATERAL VIEW 等效的方法?

标题说明了一切:

是否有等效LATERAL VIEW于 Spark API 中的 SPARK SQL 命令,以便我可以从包含多列数据结构的 UDF 生成列,然后将结构中的列横向扩展为父数据帧作为单独的列?

相当于df.select(expr("LATERAL VIEW udf(col1,col2...coln)"))

0 投票
0 回答
44 浏览

scala - Scala-Spark 基于 Config 动态创建数据帧 APIS

我想编写一个自定义函数来获取基于配置的过滤器,按列名和指标映射分组。我想编写一个类似于下面的函数。指标映射可以是 1 对 1 或 1 对多,并且可以有大约 100 多个映射。

示例功能:

示例配置如下所示:

我将解析这个配置并将函数调用为:

如何编写循环度量并动态应用 Case 子句的函数?我可以在这里得到一些帮助吗?

0 投票
3 回答
120 浏览

apache-spark - 尝试使用本地文件 API 而不是 Spark API 读取数据块中的文本文件时出现问题

我正在尝试读取一个小的 txt 文件,该文件作为表格添加到 Databricks 上的默认数据库中。尝试通过 Local File API 读取文件时,我得到一个FileNotFoundError,但我可以使用SparkContext读取与Spark RDD相同的文件。

请在下面找到代码:

这给了我错误:

其中,我使用SparkContext读取文件没有问题:

正如预期的那样,我得到了上述代码块的结果:

我还参考了此处的DBFS 文档以了解本地文件 API 的限制,但在此问题上没有任何线索。任何帮助将不胜感激。谢谢!