问题标签 [sparkapi]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

10 问题

0 投票

4 回答

7309 浏览

r - sparklyr 可以与部署在纱线管理的 hadoop 集群上的 spark 一起使用吗？

sparklyrR 包是否能够连接到 YARN 管理的 hadoop 集群？这似乎没有记录在集群部署文档中。使用SparkRSpark 附带的软件包可以通过以下方式进行：

但是，当我将上面的最后几行替换为

我收到错误：

是sparklyr替代方案SparkR还是建立在SparkR包装之上？

r apache-spark hadoop-yarn sparkapi sparklyr

2016-06-29T14:42:20.050

0 投票

1 回答

808 浏览

r - 在 Rstudio-Failed 中将 R 与 Spark 连接以启动 Spark shell。端口文件不存在

我正在尝试使用 Rstudio 将 R 与 Spark 的本地实例连接起来。但是，我收到显示的错误消息。我错过了什么？我正在使用 Windows 10。我正在关注rstudio上的教程。

我收到的错误消息：

r apache-spark rstudio sparkapi sparklyr

2016-07-05T18:27:58.033

0 投票

1 回答

220 浏览

java - 两个字符串之间的java spark单词匹配

我想知道两个不同长字符串的单词与 SPARK (Java Api) 之间是否存在某种巧合。

我怎么能这样做？

我创建了一种方法，但我认为它效率不高（迭代次数过多）：

java apache-spark parallel-processing sparkapi

2016-11-18T12:27:38.307

0 投票

1 回答

446 浏览

hadoop - 从 HBase 提取数据时在 RDD 中获取 Null 数据

我需要使用 Spark API 从 HBase 中提取数据，并像 SparkSQL 一样在数据顶部进行查询。

我做的事情如下：

创建 Spark conf 对象
创建 HBase 对象
编写 JAVPairRDD 来获取记录。

我的主类代码如下：

我的 Bean 类代码如下：

得到以下异常：

我的 Spark 和 HBase 工作正常。

请帮我解决这个问题。

hadoop apache-spark hbase apache-spark-sql sparkapi

2017-01-18T07:08:18.460

0 投票

0 回答

497 浏览

apache-spark - 我可以使用 Spark 的 REST API 在 Workers 上获取 Spark 的版本吗

我知道我可以使用以下命令获取在 Spark Master 上运行的 Spark v2.2.1 版本：

这将返回类似

但是，我还想检查每个 Worker 上运行的 Spark 版本。我知道我可以得到所有工人的名单：

这将返回类似于

我想使用该信息来查询每个 Spark Worker 的版本。这可能吗？

apache-spark apache-spark-2.0 sparkapi

2018-03-01T19:44:03.567

0 投票

0 回答

76 浏览

python-2.7 - 在 python 中重命名 pyspark/Spark API 中的 Hadoop 服务器表

这是我的模拟代码，如您所见，我正在从一个表中读取数据，然后最终写入 Hadoop 服务器上的同一个表，但是我收到一个错误，即从同一个表读取时无法覆盖该表。

我找到了一个临时解决方法（通过写入一个临时表，然后将其导入一个新的 DataFrame，最后写入所需的表）但是，这似乎非常低效。

我希望有另一种方法，我可以简单地重命名从 spark API 中创建的 temp_table，但没有取得多大成功。

PS：请忽略缩进，我似乎无法在这里获得正确的格式。

python-2.7 apache-spark hadoop pyspark sparkapi

2018-10-17T14:33:56.287

0 投票

1 回答

546 浏览

apache-spark - Spark API：在 LIKE 语句中使用列值

在火花 API 中：

那么使用通配符来比较值的等效方法是什么？通配符可能会出现在连接中找到的列的字符串值中？

由于 like() 接受文字字符串而不是列而失败的示例：

?

apache-spark apache-spark-sql sparkapi

2019-06-10T17:02:30.673

0 投票

1 回答

252 浏览

apache-spark - Spark：Spark API 中是否有与 spark SQL 的 LATERAL VIEW 等效的方法？

标题说明了一切：

是否有等效LATERAL VIEW于 Spark API 中的 SPARK SQL 命令，以便我可以从包含多列数据结构的 UDF 生成列，然后将结构中的列横向扩展为父数据帧作为单独的列?

相当于df.select(expr("LATERAL VIEW udf(col1,col2...coln)"))

apache-spark lateral-join sparkapi

2021-02-25T15:43:39.520

0 投票

0 回答

44 浏览

scala - Scala-Spark 基于 Config 动态创建数据帧 APIS

我想编写一个自定义函数来获取基于配置的过滤器，按列名和指标映射分组。我想编写一个类似于下面的函数。指标映射可以是 1 对 1 或 1 对多，并且可以有大约 100 多个映射。

示例功能：

示例配置如下所示：

我将解析这个配置并将函数调用为：

如何编写循环度量并动态应用 Case 子句的函数？我可以在这里得到一些帮助吗？

scala apache-spark group-by customization sparkapi

2021-08-05T23:34:33.743

0 投票

3 回答

120 浏览

apache-spark - 尝试使用本地文件 API 而不是 Spark API 读取数据块中的文本文件时出现问题

我正在尝试读取一个小的 txt 文件，该文件作为表格添加到 Databricks 上的默认数据库中。尝试通过 Local File API 读取文件时，我得到一个FileNotFoundError，但我可以使用SparkContext读取与Spark RDD相同的文件。

请在下面找到代码：

这给了我错误：

其中，我使用SparkContext读取文件没有问题：

正如预期的那样，我得到了上述代码块的结果：

我还参考了此处的DBFS 文档以了解本地文件 API 的限制，但在此问题上没有任何线索。任何帮助将不胜感激。谢谢！

apache-spark pyspark databricks sparkapi

2021-11-24T06:16:55.793

1 2 3 4 5 6 7 8 9 10