问题标签 [pyhive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sqlalchemy - 如何使用 pyhive sqlalchemy 连接到 Databricks 集群?
我正在使用以下代码连接到 Databricks 集群。但是得到了thrift.transport.TTransport.TTransportException: TSocket read 0 bytes
。我认为 create_engine 中的 my_url 存在一些错误。
因为这是公司的集群,所以我无法展示my_url
. 有没有人有使用 pyhive sqlalchemy 连接到 databricks 集群的经验?
python - 从 pandas.read_sql 读取时编码 impala 数据
当我使用pyhive
库读取 impala 数据pandas.read_sql
时出现错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe2 in position 3071: unexpected end of data
此错误的原因可能是那里的数据可能已损坏。
如何将其更改为不同的编码,以便我可以在数据框中获取数据?
python - thrift.transport.TTransport.TTransportException:无法解析主机 Pyhive 和 Python 的 sockaddr
我写了这段代码。我收到了这个错误:
thrift.transport.TTransport.TTransportException:无法解析主机的 sockaddr。
我使用库,tweepy,pyhive
database-connection - 如何使用pyhive在python中运行presto查询?
我正在尝试使用 pyhive 库在 python 中运行 presto 查询,但 max retries 错误即将到来。我在本地(笔记本电脑)的 jupyter notebook 中运行它。我认为它无法连接到 presto 节点。我正在使用 Azure hdinsight 集群并在头节点上安装了 presto 应用程序(使用星爆分布)。我使用了集群用户名和密码,也尝试了头节点 ssh 用户和密码,但没有任何效果。下面是我的代码:
我得到的错误是:
ConnectionError: HTTPConnectionPool(host='sm-hdinsight01-ssh.azurehdinsight.net', port=8085): 最大重试次数超过 url: /v1/statement (由 NewConnectionError(': 无法建立新连接: [Errno 110) ] 连接超时',))
但是当我在头节点的终端运行它时,它可以工作:
我想我在这里遗漏了一些关键的东西。请帮忙。
python - 无法使用 PyHive 连接到 Hive
我在连接到Hive
using时遇到问题Pyhive
。
我在 Windows 机器(Win 10)中使用 Virtualenv,我安装了所有 Pyhive 的要求(sasl、thrift、thrift-sasl 和 MS Visual C++ 9.0)但我得到了同样的错误......
这是我的代码:
这是安装在我的虚拟环境中的软件包
有人可以帮我吗?为糟糕的英语道歉。
python - python - presto - 时间戳和十进制(38,18)作为字符串返回?
为什么 presto timestamp/decimal(38,18) 数据类型返回一个字符串(包含在 u'' 中)而不是 python datetime/numeric 类型?
快速jdbc:
从 hive.xy 中选择 typeof(col1)、typeof(col2)、typeof(col3)、typeof(col4)、typeof(col5)、typeof(col6)
结果是
timestamp 时间戳 bigint decimal(38,18) varchar varchar
python - 无法将熊猫数据框写入配置单元表
我正在测试配置单元表和熊猫之间的读写操作。
我可以使用下面的代码成功地从 hive 读取到 pandas 数据框。
我能够读取从 hive 到 pandas df 的表格。
现在尝试使用以下代码编写一个简单的 pandas df 到 hive 表。
但是,我收到一个错误
python - 使用带有 kerberos 票证的 pyhive 连接到 kerberized hadoop 集群
我想在我们的 kerberized Hadoop 集群上连接到 Hive,然后从已经有自己的 Kerberose 客户端并且可以工作的机器运行一些 hql 查询(显然是哈哈 :)),keytab 已经通过并测试。
我们的 Hadoop 运行 HWS 3.1 和 CentOS7,我的机器也运行 CentOS7,我使用的是 Python 3.7.3 和 PyHive (0.6.1)。
我已经安装了一堆库(我也尝试卸载它们),因为我正在浏览不同的论坛(HWS,Cloudera,这里是......)
我通过 pip sasl 库安装
- 纯sasl(0.6.1)
- pysasl (0.4.1)
- 萨斯尔 (0.2.1)
- 节俭-sasl (0.3.0)
我是通过yum安装的
- 赛勒斯-sasl-2.1.26-23.el7.x86_64
- cyrus-sasl-lib-2.1.26-23.el7.x86_64
- cyrus-sasl-plain-2.1.26-23.el7.x86_64
- saslwrapper-devel-0.16-5.el7.x86_64
- saslwrapper-0.16-5.el7.x86_64
- cyrus-sasl-lib-2.1.26-23.el7.i686
- cyrus-sasl-devel-2.1.26-23.el7.x86_64
下面是我与蜂巢的联系
这是我的 yaml 的一部分
当我尝试运行代码时,出现以下错误。
有没有人走运?障碍在哪里?Pyhive 库,错误的 Kerberos 连接设置?
hive - 如何使用 python 连接到 HIVE?
我正在使用一个启用了 kerberous 的 CDH 集群,我想用它pyhive
来连接到 HIVE 并读取 HIVE 表。这是我的代码
我得到xyz
from hive-site.xml
under的值hive.metastore.uris
,但是它说xyz:9083
,但是如果我用 9083 替换 10000 ,它会抱怨。
我的问题是当我连接时(使用端口 = 10000),它在执行查询时给了我权限错误,而如果我使用 HIVE CLI 或直线,我可以读取该表。我的问题是 1)如果 xyz 是我应该使用的值?2)我应该使用哪个端口?3)如果一切正确,为什么我仍然遇到权限问题?
python - 如何使用 impyla 连接到 impala 或使用 pyhive 连接到 hive?
我正在尝试使用带有此代码的 impyla 连接到 impala:
根据文档,该库需要版本 0.2.1 中的 thrift_sasl 但我无法安装它,因为它显示此错误
当我安装最新版本的 thrift_sasl jupyter 时出现此错误:
我还尝试使用以下代码通过 pyhive 进行连接:
它要我安装 sasl,但是当我尝试这样做时,它表明:
有任何想法吗?