问题标签 [spark-thriftserver]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
75 浏览

thrift - apache thrift 监控 hdfs 文件

我计划使用 Apache Thrift 来监控本地更改的任何更改并将该数据推送到客户端(更改的数据)。

当我检查节俭文档时,我看到了多个传输层,但不明白我应该使用哪个传输层

http://thrift-tutorial.readthedocs.io/en/latest/thrift-stack.html

0 投票
1 回答
642 浏览

apache-spark - Spark Thriftserver 由于画面查询而停止或冻结

大约 30 人通过 spark-shell 和 tableau (10.4) 使用 spark 集群 (spark 2.2)。每天一次,thriftserver 被杀死或冻结,因为 jvm 需要收集很多垃圾。这些是我可以在 thriftserver 日志文件中找到的错误消息:

ERROR SparkExecuteStatementOperation: Error executing query, currentState RUNNING, java.lang.OutOfMemoryError: GC overhead limit exceeded

ERROR SparkExecuteStatementOperation: Error executing query, currentState RUNNING, java.lang.OutOfMemoryError: GC overhead limit exceeded

ERROR TaskSchedulerImpl: Lost executor 2 on XXX.XXX.XXX.XXX: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages. Exception in thread "HiveServer2-Handler-Pool: Thread-152" java.lang.OutOfMemoryError: Java heap space

一般信息:

Thriftserver 使用以下选项启动(从 master 的 web-ui -> sun.java.command 复制):

org.apache.spark.deploy.SparkSubmit --master spark://bd-master:7077 --conf spark.driver.memory=6G --conf spark.driver.extraClassPath=--hiveconf --class org.apache.spark.sql.hive.thriftserver.HiveThriftServer2 --executor-memory 12G --total-executor-cores 12 --supervise --driver-cores 2 spark-internal hive.server2.thrift.bind.host bd-master --hiveconf hive.server2.thrift.port 10001

spark 独立集群在 6 台机器上有 48 个内核和 240 GB 内存。每台机器都有 8 个内核和 64 GB 内存。其中两个是虚拟机。

用户正在查询一个 hive 表,该表是一个在所有机器上复制的 1.6 GB csv 文件。

为什么我做错了什么,为什么画面能够杀死 thriftserver?是否有任何其他信息可以帮助您帮助我?

0 投票
0 回答
212 浏览

apache-spark - spark thrift 服务器不清理随机文件

我们正在使用 Spark Thrift Server 对 Spark EMR 集群运行 SQL 查询,我们看到当 SQL 查询(转换为 Spark 作业)完成时,位于下面的 shuffle 文件/mnt/yarn/usercache/root/appcache没有被清理。这No space left on device最终会在运行多个查询后导致。

如果我们停止 Spark Thrift 服务器,则会清理 shuffle 文件。有没有办法让清理不仅在应用程序停止后运行,而且在每次作业运行后运行?我们尝试设置以下参数

但文件仍未清理。知道它为什么会发生以及我们如何避免它?

0 投票
1 回答
193 浏览

apache-spark - Spark Thrift 在会话之间维护缓存

在 Spark Thrift 中,当使用 beeline 客户端时,是否可以:

  1. 用户使用直线连接到服务器并创建一个缓存表。
  2. 用户使用直线(不同的会话)再次连接到服务器,并且可以使用在上一个会话中创建的缓存表。

我测试了这个工作流程,并且在 1. 我可以在 Spark UI 中看到缓存表在那里。当我在 1. 中完成会话时,桌子仍然在那里。但是当我与同一个用户重新连接时,我无法使用它。

0 投票
0 回答
251 浏览

apache-spark - 使用 JDBC 从 Spark Thrift Server 获取结果时如何设置提取大小?

我尝试过使用 statement.setFetchSize(required number),但是当我使用 JDBC 连接到 Hive 时,它​​有效,而不是当我尝试通过 spark thrift 服务器时。我的查询产生了一个大的结果集,导致在 thrift 服务器上出现 OOM。

有什么设置可以用来做同样的事情吗?

0 投票
2 回答
545 浏览

hadoop - 访问 Spark thrift 服务器时出错

火花版本:1.6.3

我将 Spark thrift 服务器作为代理运行。但它没有像我预期的那样运行。它总是在负载高时停止。

这是我访问时的错误。

我看到错误是java.lang.OutOfMemoryError: Java heap space

但我不知道我需要增加什么内存:

  • 运行 SPARK 的服务器内存
  • 使用 SPARK 配置执行器的内存
  • 其他内存配置...

更新:我的 SPARK 配置

我的 SPARK 配置

0 投票
1 回答
2398 浏览

apache-spark - Power BI 和 Spark - ODBC:错误 [HY000] [Microsoft][ThriftExtension] (4)

我正在将 Power BI 连接到 Spark,但在尝试连接后出现此错误:

详细信息:“ODBC:错误 [HY000] [Microsoft][ThriftExtension] (4) 联系服务器时出错:SSL_read:错误代码:0。连接已配置为不使用 SASL 进行身份验证。此错误可能是由于服务器已配置为使用 SASL 进行身份验证。错误 [HY000] [Microsoft][ThriftExtension] (4) 联系服务器时出错:SSL_read:错误代码:0。连接已配置为不使用 SASL 进行身份验证。此错误可能是由于服务器已配置为使用 SASL 进行身份验证。”

我尝试了以下方法:

  1. 重装PBI桌面-64bit
  2. 已安装 Microsoft ODBC 火花驱动程序
0 投票
1 回答
698 浏览

apache-spark - 对 Spark Thrift Server 的直线查询未在 Spark History UI 中显示任何内容

我刚刚在端口 10016(默认)上使用 Hive 和 Spark Thrift 服务器构建了一个 Hortonworks 集群,并通过直线测试了 SELECT 语句到 STS

https://spark.apache.org/docs/1.6.0/sql-programming-guide.html#running-the-thrift-jdbcodbc-server

我可以得到结果,一切都很好。但我的问题是查询为什么根本不显示在 Spark History Server UI 中?我怎么知道它是否真的是 Spark 做计算工作而不是通过 HiveServer2?

更新 1

这就是我所拥有的,并且默认情况下已经启用了日志:

在此处输入图像描述

0 投票
1 回答
334 浏览

apache-spark - Spark-Yarn 集群模式下的动态资源分配

当我使用以下设置启动 spark 应用程序时(默认为yarn-client模式)工作正常

问题

而当我将部署模式更改为集群时,应用程序无法启动。甚至没有抛出任何错误继续前进。

日志

18/01/08 01:21:00 WARN 客户端:spark.yarn.am.extraJavaOptions 在集群模式下不会生效

这是记录器的最后一行。

欢迎提出任何建议。

这里要强调的一个重要想法是,正在尝试部署的 spark 应用程序启动 apache thrift 服务器。经过我的搜索,我认为它的节俭因为无法在集群模式下运行纱线。在集群模式下运行的任何帮助。

0 投票
1 回答
466 浏览

java - 使用 Spark 查询存储在 HDFS 中的数据的最佳方法是什么?

我想创建一个使用 Spark 在 HDFS 中查询数据的 Java 应用程序。到目前为止,我已经通过 2 种方式进行了测试: - 对 Thrift 服务器公开的 JDBC 端点进行 SQL 查询(从默认配置开始) - 使用 spark dataset api

我的问题是,对于 hadoop/spark 来说是全新的,这两种方法中的哪一种最有效且更容易设置(没有默认配置)?

据我所知,使用 Thrift 服务器需要配置和维护 Thrift 和 Hive。另一方面,我希望使用数据集 API 会更慢并且有更多限制,将数据保存在内存中。