问题标签 [pyhive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
7519 浏览

python - 从外部服务器将 Python 数据框插入 Hive

我目前正在使用 PyHive (Python3.6) 将数据读取到 Hive 集群之外的服务器,然后使用 Python 执行分析。

执行分析后,我想将数据写回 Hive 服务器。在寻找解决方案时,大多数帖子都使用 PySpark。从长远来看,我们将设置我们的系统以使用 PySpark。但是,在短期内,有没有一种方法可以轻松地使用 Python 从集群外部的服务器直接将数据写入 Hive 表?

谢谢你的帮助!

0 投票
1 回答
4974 浏览

python - PyHive with Kerberos throws Authentication error after few calls

I am trying to connect to Hive using Python (PyHive Lib) to read some data and then I further connects it to hive Flask to show in Dashboard.

It all works fine for few calls to hive, however soon after that I am getting following error.

Following is my code

Calling Script

Observation When it's working I can see hive in service principal when I do klist however, I don't when I see above error message.

Klist when it's working

Klist when it's not working

Update:

So I don't think it's after certain call however, I think it's after certain time. ( I think one hour). I changed the sleep time to 3600 sec and just after first call I started getting error.

This is weird as, ticket for hive/hive_server.ABC.COM@ABC.COM was valid for 7 days

0 投票
1 回答
3240 浏览

python - 在哪里可以找到 hive url、用户名和密码?

在命令行中,我可以输入hive以获取 hive shell,例如:

然后执行一些查询。

现在我需要用 PyHive 编写一个 python 脚本来执行一些任务,比如:

我在哪里可以找到 shell 使用的主机、端口、用户名、密码?

0 投票
1 回答
629 浏览

hadoop - PyHive 忽略 Hive 配置

我间歇性地收到错误消息

由于 VERTEX_FAILURE,DAG 没有成功。

通过 PyHive 运行 Hive 查询时。Hive 在 EMR 集群上运行,因此在 hive-site.xml 文件中 hive.vectorized.execution.enabled设置为。false

我可以通过 Hive 连接上的配置设置上述属性,并且每次执行它时我的查询都成功运行,但是我想确认这已经解决了问题,并且 hive-site.xml 肯定是这种情况。 xml 被忽略。

任何人都可以确认这是否是预期的行为,或者是否有任何方法可以通过 PyHive 检查 Hive 配置,因为我无法找到任何这样做的方法?

谢谢!

0 投票
1 回答
832 浏览

python - 停止将整个 pyhive 查询记录到日志文件

我有一个代码管道,我使用 Pyhive 将数据插入数据库。

而且,我什至不使用记录器就将整个查询打印在应用程序日志上

我有以下记录器配置

问题是我有大约 30M 条记录需要插入,并且记录器中充满了来自查询的值。

我不想记录整个查询,只插入以下内容

0 投票
1 回答
2995 浏览

python - 将管道分隔的 csv 加载到配置单元

我正在尝试使用 python 在配置单元表中加载管道分隔的 csv 文件,但没有成功。请协助。

完整代码:

0 投票
1 回答
1805 浏览

python - 无法使用 pyhive 连接到 hive

连接以删除 hiveserver2 时出现“EOFError()”错误。我的 pyhive 版本是0.6.1

hiveserver2 使用 http 作为传输模式

这是例外 ile "<stdin>", line 1, in <module> File "/usr/local/lib/python2.7/dist-packages/pyhive/hive.py", line 94, in connect return Connection(*args, **kwargs) File "/usr/local/lib/python2.7/dist-packages/pyhive/hive.py", line 198, in __init__ response = self._client.OpenSession(open_session_req) File "/usr/local/lib/python2.7/dist-packages/TCLIService/TCLIService.py", line 187, in OpenSession return self.recv_OpenSession() File "/usr/local/lib/python2.7/dist-packages/TCLIService/TCLIService.py", line 199, in recv_OpenSession (fname, mtype, rseqid) = iprot.readMessageBegin() File "/usr/local/lib/python2.7/dist-packages/thrift/protocol/TBinaryProtocol.py", line 148, in readMessageBegin name = self.trans.readAll(sz) File "/usr/local/lib/python2.7/dist-packages/thrift/transport/TTransport.py", line 65, in readAll raise EOFError()

这也是我用来连接删除蜂巢的代码

0 投票
0 回答
62 浏览

python - 在 pyhive 上设置执行配置

我收到错误,我无法在运行时运行 SET 语句

SET hive.exec.dynamic.partition.mode=nonstrict

有谁知道这是否支持?我怎样才能让它运行?

0 投票
0 回答
439 浏览

python - 运行需要太长时间的查询后的pyhive连接问题

我正在使用带有 hive 连接的 pandas.read_sql 函数来提取非常大的数据。我有一个这样的脚本:

大查询耗时较长,执行后python在尝试执行第二行时返回以下错误: raise NotSupportedError("Hive does not have transactions") # pragma: no cover 似乎连接有问题。

此外,如果我用 multirpocessing.Manager().Queue() 替换第二行,它会返回以下错误:

似乎这种错误与在connection.py中被搞砸的退出函数有关。此外,当我更改第一个命令中的查询以提取不需要太长时间的较小数据时,一切正常。所以我认为可能是因为执行第一个查询花费的时间太长,某些东西被不正确地终止了。这导致了这两个错误,两者在性质上是如此不同,但都与断开的连接问题有关。

0 投票
1 回答
1367 浏览

python - pyhive:使用 pyhive 设置 hive 属性

我有一个复杂的配置单元查询,其底层连接是笛卡尔积。所以我需要设置以下属性。但是当我使用 pyhive 执行这些属性时,它无法执行。我收到一个错误,要求为笛卡尔设置属性。

set1 = '''SET hive.strict.checks.cartesian.product=false'''

set2 = '''SET hive.mapred.mode=strict'''