“spark-thriftserver”的相关标签问题

0 投票

1 回答

75 浏览

thrift - apache thrift 监控 hdfs 文件

我计划使用 Apache Thrift 来监控本地更改的任何更改并将该数据推送到客户端（更改的数据）。

当我检查节俭文档时，我看到了多个传输层，但不明白我应该使用哪个传输层

http://thrift-tutorial.readthedocs.io/en/latest/thrift-stack.html

thrift spark-thriftserver

2017-10-07T22:12:02.450

0 投票

1 回答

642 浏览

apache-spark - Spark Thriftserver 由于画面查询而停止或冻结

大约 30 人通过 spark-shell 和 tableau (10.4) 使用 spark 集群 (spark 2.2)。每天一次，thriftserver 被杀死或冻结，因为 jvm 需要收集很多垃圾。这些是我可以在 thriftserver 日志文件中找到的错误消息：

ERROR SparkExecuteStatementOperation: Error executing query, currentState RUNNING, java.lang.OutOfMemoryError: GC overhead limit exceeded

ERROR TaskSchedulerImpl: Lost executor 2 on XXX.XXX.XXX.XXX: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages. Exception in thread "HiveServer2-Handler-Pool: Thread-152" java.lang.OutOfMemoryError: Java heap space

一般信息：

Thriftserver 使用以下选项启动（从 master 的 web-ui -> sun.java.command 复制）：

org.apache.spark.deploy.SparkSubmit --master spark://bd-master:7077 --conf spark.driver.memory=6G --conf spark.driver.extraClassPath=--hiveconf --class org.apache.spark.sql.hive.thriftserver.HiveThriftServer2 --executor-memory 12G --total-executor-cores 12 --supervise --driver-cores 2 spark-internal hive.server2.thrift.bind.host bd-master --hiveconf hive.server2.thrift.port 10001

spark 独立集群在 6 台机器上有 48 个内核和 240 GB 内存。每台机器都有 8 个内核和 64 GB 内存。其中两个是虚拟机。

用户正在查询一个 hive 表，该表是一个在所有机器上复制的 1.6 GB csv 文件。

为什么我做错了什么，为什么画面能够杀死 thriftserver？是否有任何其他信息可以帮助您帮助我？

2017-10-27T16:42:26.013

0 投票

0 回答

212 浏览

apache-spark - spark thrift 服务器不清理随机文件

我们正在使用 Spark Thrift Server 对 Spark EMR 集群运行 SQL 查询，我们看到当 SQL 查询（转换为 Spark 作业）完成时，位于下面的 shuffle 文件/mnt/yarn/usercache/root/appcache没有被清理。这No space left on device最终会在运行多个查询后导致。

如果我们停止 Spark Thrift 服务器，则会清理 shuffle 文件。有没有办法让清理不仅在应用程序停止后运行，而且在每次作业运行后运行？我们尝试设置以下参数

但文件仍未清理。知道它为什么会发生以及我们如何避免它？

apache-spark hadoop-yarn shuffle amazon-emr spark-thriftserver

2017-11-09T13:20:34.613

0 投票

1 回答

193 浏览

apache-spark - Spark Thrift 在会话之间维护缓存

在 Spark Thrift 中，当使用 beeline 客户端时，是否可以：

用户使用直线连接到服务器并创建一个缓存表。
用户使用直线（不同的会话）再次连接到服务器，并且可以使用在上一个会话中创建的缓存表。

我测试了这个工作流程，并且在 1. 我可以在 Spark UI 中看到缓存表在那里。当我在 1. 中完成会话时，桌子仍然在那里。但是当我与同一个用户重新连接时，我无法使用它。

apache-spark spark-thriftserver

2017-11-21T13:32:09.463

0 投票

0 回答

251 浏览

apache-spark - 使用 JDBC 从 Spark Thrift Server 获取结果时如何设置提取大小？

我尝试过使用 statement.setFetchSize(required number)，但是当我使用 JDBC 连接到 Hive 时，它有效，而不是当我尝试通过 spark thrift 服务器时。我的查询产生了一个大的结果集，导致在 thrift 服务器上出现 OOM。

有什么设置可以用来做同样的事情吗？

apache-spark hive spark-thriftserver spark-jdbc

2017-12-01T05:10:41.540

0 投票

2 回答

545 浏览

hadoop - 访问 Spark thrift 服务器时出错

火花版本：1.6.3

我将 Spark thrift 服务器作为代理运行。但它没有像我预期的那样运行。它总是在负载高时停止。

这是我访问时的错误。

我看到错误是java.lang.OutOfMemoryError: Java heap space

但我不知道我需要增加什么内存：

运行 SPARK 的服务器内存
使用 SPARK 配置执行器的内存
其他内存配置...

更新：我的 SPARK 配置

我的 SPARK 配置

hadoop apache-spark apache-spark-1.6 spark-thriftserver

2017-12-05T02:48:48.810

0 投票

1 回答

2398 浏览

apache-spark - Power BI 和 Spark - ODBC：错误 [HY000] [Microsoft][ThriftExtension] (4)

我正在将 Power BI 连接到 Spark，但在尝试连接后出现此错误：

详细信息：“ODBC：错误 [HY000] [Microsoft][ThriftExtension] (4) 联系服务器时出错：SSL_read：错误代码：0。连接已配置为不使用 SASL 进行身份验证。此错误可能是由于服务器已配置为使用 SASL 进行身份验证。错误 [HY000] [Microsoft][ThriftExtension] (4) 联系服务器时出错：SSL_read：错误代码：0。连接已配置为不使用 SASL 进行身份验证。此错误可能是由于服务器已配置为使用 SASL 进行身份验证。”

我尝试了以下方法：

重装PBI桌面-64bit
已安装 Microsoft ODBC 火花驱动程序

apache-spark powerbi thrift azure-hdinsight spark-thriftserver

2018-01-01T14:53:03.503

0 投票

1 回答

698 浏览

apache-spark - 对 Spark Thrift Server 的直线查询未在 Spark History UI 中显示任何内容

我刚刚在端口 10016（默认）上使用 Hive 和 Spark Thrift 服务器构建了一个 Hortonworks 集群，并通过直线测试了 SELECT 语句到 STS

https://spark.apache.org/docs/1.6.0/sql-programming-guide.html#running-the-thrift-jdbcodbc-server

我可以得到结果，一切都很好。但我的问题是查询为什么根本不显示在 Spark History Server UI 中？我怎么知道它是否真的是 Spark 做计算工作而不是通过 HiveServer2？

更新 1

这就是我所拥有的，并且默认情况下已经启用了日志：

apache-spark hive apache-spark-sql beeline spark-thriftserver

2018-01-04T20:01:35.970

0 投票

1 回答

334 浏览

apache-spark - Spark-Yarn 集群模式下的动态资源分配

当我使用以下设置启动 spark 应用程序时（默认为yarn-client模式）工作正常

问题

而当我将部署模式更改为集群时，应用程序无法启动。甚至没有抛出任何错误继续前进。

日志

18/01/08 01:21:00 WARN 客户端：spark.yarn.am.extraJavaOptions 在集群模式下不会生效

这是记录器的最后一行。

欢迎提出任何建议。

这里要强调的一个重要想法是，正在尝试部署的 spark 应用程序启动 apache thrift 服务器。经过我的搜索，我认为它的节俭因为无法在集群模式下运行纱线。在集群模式下运行的任何帮助。

apache-spark hadoop-yarn thrift-protocol spark-thriftserver

2018-01-08T01:25:31.190

0 投票

1 回答

466 浏览

java - 使用 Spark 查询存储在 HDFS 中的数据的最佳方法是什么？

我想创建一个使用 Spark 在 HDFS 中查询数据的 Java 应用程序。到目前为止，我已经通过 2 种方式进行了测试： - 对 Thrift 服务器公开的 JDBC 端点进行 SQL 查询（从默认配置开始） - 使用 spark dataset api

我的问题是，对于 hadoop/spark 来说是全新的，这两种方法中的哪一种最有效且更容易设置（没有默认配置）？

据我所知，使用 Thrift 服务器需要配置和维护 Thrift 和 Hive。另一方面，我希望使用数据集 API 会更慢并且有更多限制，将数据保存在内存中。

java apache-spark apache-spark-sql spark-dataframe spark-thriftserver

2018-02-11T08:04:03.743

问题标签 [spark-thriftserver]

Reference