问题标签 [pyhive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 火花驱动程序进程是否溢出到磁盘?
在 spark thrift 服务器中运行大型 sql 查询时出现 OOM 错误。想知道 Spark Master 是否能够将数据溢出到磁盘上。
有没有办法将 spark sql 结果流式传输回 jupyter notebook。
apache-spark - 有没有办法增加 spark sql thrift 服务器中的提取大小?
INFO Spark ExecuteStatement 操作:从偏移量返回 1000 行的结果集
SQL 查询运行成功,
为了使用 pandas 和 pyhive 将行返回给客户端,这需要很多时间。
python - 有什么方法可以使用 Python 在 Hive 上创建数据库?
我想自动化整个过程来测试我想创建数据库、执行操作然后删除数据库的场景。有没有办法使用 Python 3 来做到这一点。我尝试使用 PyHive,但它需要数据库名称才能连接。
python - 尝试从 python 连接 Hive 时出现错误“UnicodeError:标签太长”
我正在尝试使用以下主机和用户凭据连接 Hive DB。收到错误“UnicodeError:标签太长”。有没有办法可以克服这个问题?
我尝试了以下脚本:
presto - 使用pyhive时有什么方法可以加速Presto?
只是想知道在使用 PyHive 的 Presto 时是否可以设置任何参数(可能是多线程?)?
我注意到的是,当执行 select * from a table 之类的操作并使用 fetchmany(尝试了各种批量大小)时,与使用 presto-cli 执行相同操作相比,它会慢 30% 到 50%。
谢谢
python - 如何从 Windows 通过 pyhive 连接到 Hive
在过去的几天里,我一直在绞尽脑汁尝试使用Windows上的 pyhive 连接到带有 Python 客户端的 Hive 服务器。我是 Hive 的新手(pyhive 也是如此),但我是一位经验丰富的 Python 开发人员。我总是收到以下错误:
执行以下脚本时:
HiveServer2 实例是来自 Cloudera 的开箱即用 HDP 沙盒 VM,其中 HiveServer2 身份验证设置为“无”。
客户端是 Windows 10 上的 Anaconda 虚拟环境,使用 Python 3.8.5 和 conda 安装的以下软件包:
- pyhive 0.6.1
- 萨斯勒 0.2.1
- 节俭 0.13.0
- 节俭-sasl 0.4.2
现在我只是尝试使用上面的脚本连接到 Hive,但最终我打算在 Flask 应用程序的 SQLAlchemy 中使用 pyhive。换句话说:Flask -> Flask-SQLAlchemy -> SQLAlchemy -> pyhive。在生产中,Flask 应用程序将由 Cloudera Data Science Workbench(即某种 Linux 风格)托管,但将在 Windows 系统上开发(因此也必须运行)。
当然,我已经在 Cloudera 的网站和 GitHub 上查看了与 Hive 连接问题有关的许多问题,如果有人用枪指着我的头,我不得不说从 Windows 客户端尝试这个可能是问题的一部分因为这似乎不是一件很常见的事情。
这个错误甚至意味着什么?如果有一些关于如何从 python 配置和使用 SASL 的文档,那肯定会很好——如果有的话,我想知道它。
FWIW,导致错误的行在thrift_sasl/__init__.py
:
self.mechanism
是“平原”;chosen_mech
并且initial_response
是空字符串 ('')。ret
为 False,这会导致抛出异常。
我知道我不是唯一一个试图在 Windows 上使用 pyhive 连接到 Hive 的人 - 这个人(尝试从我的 PC 上通过 python 连接到 hive(hue) 时出现 SASL 错误 - Windows10)是,但他的“解决方案” - 安装Ubuntu 作为他的 Windows 机器上的虚拟机 - 不适合我。
python-3.x - 在 Python 3.9.5 窗口中安装 SASL 时出错
我正在尝试安装 PyHive 以在 Python 中执行 Hive 查询。作为先决条件,我尝试安装 SASL,但它给出了以下错误。我的 python 版本是 3.9.5 并且正在使用 Windows 操作系统。有人可以帮忙解决这个错误吗?
hive - hive 3.1.x 可以使用 beelin 或 pyhive 显示进度
我使用beeline cli和pyhive访问hives thrift server 3.1.2,运行查询而不运行进度返回,但是当我使用hive server 2时。
我的 python 版本是 2.7.x 并使用 pyhive 驱动程序