问题标签 [spark-thriftserver]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
780 浏览

hive - 如何通过 Spark Thrift Server 访问自定义 UDF?

我在 EMR 上运行 Spark Thrift 服务器。我通过以下方式启动 Spark Thrift 服务器:

请注意,我有一个客户 UDF jar,我想将它添加到 Thrift Server 类路径,所以我在上面的命令中添加了 --jars /opt/lib/custom-udfs.jar。

进入 EMR 后,我发出以下命令以连接到 Spark Thrift 服务器。

然后我就可以发出类似 show databases 的命令了。但是如何访问自定义 UDF?我想通过在 Thrift Server 启动脚本中添加--jars选项,这将添加 jar 以供 Hive 资源使用。

我现在可以访问自定义 UDF 的唯一方法是将客户 UDF jar 添加到 Hive 资源

然后创建UDF的函数。

问题: 有没有一种方法可以自动配置自定义 UDF jar,而无需每次都向 spark 会话添加 jar?

谢谢!

0 投票
2 回答
3740 浏览

apache-spark - 如何配置 spark sql thrift 服务器

我正在尝试安装 apache thrift server 。我安装了 spark、hadoop 和 yarn。我配置了 hive metastore 并成功启动了 metastore 和 hiveserver2: nohup hive --service metastore > /var/log/hive/metastore.log & nohup hive --service hiveserver2 > /var/log/hive/hiveserver2.log &

hiveserver2 现在侦听端口 10000。

当我尝试启动 spark thrift 服务器时,我正在运行: sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.bind.host ycsb-vanilla-master --hiveconf hive.server2.thrift.port 10001 但我无法连接。我已经看到大多数示例使用端口 10000,但该端口已被 hiveserver2 占用。

运行直线连接: !connect jdbc:hive2://localhost:10000

但无法连接: !connect jdbc:hive2://localhost:10001

尝试与 simba 连接检索 errornum=10061,我错过了什么?

谢谢 :)

0 投票
2 回答
1299 浏览

apache-spark - 在 Spark Thrift 服务器中缓存 DataFrame

我有一个 Spark Thrift 服务器。我连接到 Thrift 服务器并获取 Hive 表的数据。如果我再次查询同一个表,它将再次将文件加载到内存中并执行查询。

有什么方法可以使用 Spark Thrift Server 缓存表数据?如果是,请告诉我该怎么做

0 投票
0 回答
434 浏览

apache-spark - 有没有办法在火花内存中部分缓存分区的配置单元表

我将数据存储在 s3 中的 orc 中,分区如下: mydata/year=2017/month=8/day=1

我在这个表的顶部用 spark 创建了一个外部表:

这允许我使用 sql over spark thrift 查询该存储桶中的数据,并且我可以运行指定分区的查询,因此我可以更快地返回结果,如下所示:

我还可以将表缓存在内存中以获得更快的结果:

但是,我希望能够部分缓存表,因为我没有足够的内存来缓存所有数据。我有 1 年的数据,但是我的大部分查询都是针对最后一个月的数据。有什么方法可以使用 cache table 命令指定在内存中缓存哪些分区?

我也意识到我可以通过创建视图来做到这一点,但是我想知道是否有办法做到这一点,而无需创建视图:

0 投票
1 回答
365 浏览

apache-spark - 无法从 spark shell 连接到 thrift 服务器

我正在尝试使用以下命令通过 spark shell 连接到 spark thrift 服务器:

错误:未找到:值火花

可能是什么原因?

0 投票
1 回答
865 浏览

apache-spark - 如何在 HiveThriftServer2 中注册自定义 UDF jar?

在 HiveThriftServer2 类中,调用startWithContext与调用main有什么区别?

我有一个要注册的客户 UDF jar,这样每次 thrift 服务器启动时,所有这些都是自动配置的。有没有办法做到这一点?

我可以使用 Hive 上下文来注册 UDF jar 和函数并调用 HiveThriftServer2.startWithContext 来启动服务器吗?

谢谢

0 投票
1 回答
1101 浏览

apache-spark - 连接到 Spark Thrift 服务器的 ODBC 配置

这个问题似乎重复了,事实上,我已经看到了几个与此相关的问题,但不完全是相同的错误,所以我想看看是否有人有线索。

我已经设置了一个使用默认设置运行的 Spark Thrift 服务器。Spark 版本是 2.1,它在 YARN (Hadoop 2.7.3) 上运行

事实是我无法设置 Simba hive ODBC 驱动程序或 Microsoft 驱动程序,以便 ODBC 设置中的测试成功。

这是我用于 Microsoft Hive ODBC 驱动程序的配置:

在此处输入图像描述

当我点击测试按钮时,显示的错误消息如下:

在此处输入图像描述

在 Spark Thrift 服务器日志中,可以看到以下内容:

如果我通过 Beeline 使用 JDBC 驱动程序连接(工作正常),这些是日志:

0 投票
1 回答
591 浏览

scala - Spark 2.x 使用 HiveThriftServer2 和 sqlContext

我的要求是启用对 SparkSQL临时表的 ODBC/JDBC 访问,Spark 中有一个 DataFrame(基于 JSON 和流的混合)。

我让它在 Spark 1.6 中工作,然后最近升级到 Spark 到 2.1.1。我将我的代码调整为这个问题的第二个回答者。但是,我注意到此条款的弃用警告:

所以我检查了 sqlContext 上的javadoc,它说“已弃用。改用 SparkSession.builder。从 2.0.0 开始。” 但是,根据git 中最新的 HiveThriftserver2.scala 代码,方法 startWithContext 需要 sqlContext 类型的参数。

所以,知道的人能否对此有所了解:

  1. 首先,我是否选择了正确的方法来解决问题?我不想从我的 Spark 代码中启动 HiveThriftServer2,但是 /sbin/start-thriftserver.sh 没有为我提供使用的类启动 thriftserver 实例的选项。或者,是吗,我只是想念它?

  2. 是否有另一种方法可以使用 SparkSession 从 Spark 代码启动 HiveThriftServer2?

0 投票
1 回答
3870 浏览

apache-spark - SPARK SQL 创建视图

我注意到创建视图语句似乎有一些最大长度。下面是我可以运行的 SQL 查询(选择语句)。如果我在前面放置一个创建视图,只要我限制子查询中的列,它就可以工作。视图本身只包含一列。例如,我提供了这个。我正在通过节俭服务器运行我的 sql。有没有办法解决这个问题?提前致谢!

在职的

不工作

在职的

0 投票
0 回答
172 浏览

cookies - 如何将 cookie 与 http Thrift 一起使用?

所以,我正在使用 Thrift 的 THttpClient 与服务器通信。服务器已经在发送 set-cookie 标头,但我不确定如何从响应中提取它(在客户端),并将该 cookie 作为后续请求的标头发回。

谢谢。