问题标签 [sparkapi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - sparklyr 可以与部署在纱线管理的 hadoop 集群上的 spark 一起使用吗?
sparklyr
R 包是否能够连接到 YARN 管理的 hadoop 集群?这似乎没有记录在集群部署文档中。使用SparkR
Spark 附带的软件包可以通过以下方式进行:
但是,当我将上面的最后几行替换为
我收到错误:
是sparklyr
替代方案SparkR
还是建立在SparkR
包装之上?
r - 在 Rstudio-Failed 中将 R 与 Spark 连接以启动 Spark shell。端口文件不存在
我正在尝试使用 Rstudio 将 R 与 Spark 的本地实例连接起来。但是,我收到显示的错误消息。我错过了什么?我正在使用 Windows 10。我正在关注rstudio上的教程。
我收到的错误消息:
java - 两个字符串之间的java spark单词匹配
我想知道两个不同长字符串的单词与 SPARK (Java Api) 之间是否存在某种巧合。
我怎么能这样做?
我创建了一种方法,但我认为它效率不高(迭代次数过多):
hadoop - 从 HBase 提取数据时在 RDD 中获取 Null 数据
我需要使用 Spark API 从 HBase 中提取数据,并像 SparkSQL 一样在数据顶部进行查询。
我做的事情如下:
- 创建 Spark conf 对象
- 创建 HBase 对象
- 编写 JAVPairRDD 来获取记录。
我的主类代码如下:
我的 Bean 类代码如下:
得到以下异常:
我的 Spark 和 HBase 工作正常。
请帮我解决这个问题。
apache-spark - 我可以使用 Spark 的 REST API 在 Workers 上获取 Spark 的版本吗
我知道我可以使用以下命令获取在 Spark Master 上运行的 Spark v2.2.1 版本:
这将返回类似
但是,我还想检查每个 Worker 上运行的 Spark 版本。我知道我可以得到所有工人的名单:
这将返回类似于
我想使用该信息来查询每个 Spark Worker 的版本。这可能吗?
python-2.7 - 在 python 中重命名 pyspark/Spark API 中的 Hadoop 服务器表
这是我的模拟代码,如您所见,我正在从一个表中读取数据,然后最终写入 Hadoop 服务器上的同一个表,但是我收到一个错误,即从同一个表读取时无法覆盖该表。
我找到了一个临时解决方法(通过写入一个临时表,然后将其导入一个新的 DataFrame,最后写入所需的表)但是,这似乎非常低效。
我希望有另一种方法,我可以简单地重命名从 spark API 中创建的 temp_table,但没有取得多大成功。
PS:请忽略缩进,我似乎无法在这里获得正确的格式。
apache-spark - Spark API:在 LIKE 语句中使用列值
在火花 API 中:
那么使用通配符来比较值的等效方法是什么?通配符可能会出现在连接中找到的列的字符串值中?
由于 like() 接受文字字符串而不是列而失败的示例:
?
apache-spark - Spark:Spark API 中是否有与 spark SQL 的 LATERAL VIEW 等效的方法?
标题说明了一切:
是否有等效LATERAL VIEW
于 Spark API 中的 SPARK SQL 命令,以便我可以从包含多列数据结构的 UDF 生成列,然后将结构中的列横向扩展为父数据帧作为单独的列?
相当于df.select(expr("LATERAL VIEW udf(col1,col2...coln)"))
scala - Scala-Spark 基于 Config 动态创建数据帧 APIS
我想编写一个自定义函数来获取基于配置的过滤器,按列名和指标映射分组。我想编写一个类似于下面的函数。指标映射可以是 1 对 1 或 1 对多,并且可以有大约 100 多个映射。
示例功能:
示例配置如下所示:
我将解析这个配置并将函数调用为:
如何编写循环度量并动态应用 Case 子句的函数?我可以在这里得到一些帮助吗?
apache-spark - 尝试使用本地文件 API 而不是 Spark API 读取数据块中的文本文件时出现问题
我正在尝试读取一个小的 txt 文件,该文件作为表格添加到 Databricks 上的默认数据库中。尝试通过 Local File API 读取文件时,我得到一个FileNotFoundError
,但我可以使用SparkContext读取与Spark RDD相同的文件。
请在下面找到代码:
这给了我错误:
其中,我使用SparkContext读取文件没有问题:
正如预期的那样,我得到了上述代码块的结果:
我还参考了此处的DBFS 文档以了解本地文件 API 的限制,但在此问题上没有任何线索。任何帮助将不胜感激。谢谢!