问题标签 [pyhive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1960 浏览

sqlalchemy - 如何使用 pyhive sqlalchemy 连接到 Databricks 集群?

我正在使用以下代码连接到 Databricks 集群。但是得到了thrift.transport.TTransport.TTransportException: TSocket read 0 bytes 。我认为 create_engine 中的 my_url 存在一些错误。

因为这是公司的集群,所以我无法展示my_url. 有没有人有使用 pyhive sqlalchemy 连接到 databricks 集群的经验?

0 投票
1 回答
854 浏览

python - 从 pandas.read_sql 读取时编码 impala 数据

当我使用pyhive库读取 impala 数据pandas.read_sql时出现错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe2 in position 3071: unexpected end of data

此错误的原因可能是那里的数据可能已损坏。

如何将其更改为不同的编码,以便我可以在数据框中获取数据?

0 投票
1 回答
2717 浏览

python - thrift.transport.TTransport.TTransportException:无法解析主机 Pyhive 和 Python 的 sockaddr

我写了这段代码。我收到了这个错误:

thrift.transport.TTransport.TTransportException:无法解析主机的 sockaddr。

我使用库,tweepy,pyhive

0 投票
1 回答
3971 浏览

database-connection - 如何使用pyhive在python中运行presto查询?

我正在尝试使用 pyhive 库在 python 中运行 presto 查询,但 max retries 错误即将到来。我在本地(笔记本电脑)的 jupyter notebook 中运行它。我认为它无法连接到 presto 节点。我正在使用 Azure hdinsight 集群并在头节点上安装了 presto 应用程序(使用星爆分布)。我使用了集群用户名和密码,也尝试了头节点 ssh 用户和密码,但没有任何效果。下面是我的代码:

我得到的错误是:

ConnectionError: HTTPConnectionPool(host='sm-hdinsight01-ssh.azurehdinsight.net', port=8085): 最大重试次数超过 url: /v1/statement (由 NewConnectionError(': 无法建立新连接: [Errno 110) ] 连接超时',))

但是当我在头节点的终端运行它时,它可以工作:

我想我在这里遗漏了一些关键的东西。请帮忙。

0 投票
0 回答
360 浏览

python - 无法使用 PyHive 连接到 Hive

我在连接到Hiveusing时遇到问题Pyhive

我在 Windows 机器(Win 10)中使用 Virtualenv,我安装了所有 Pyhive 的要求(sasl、thrift、thrift-sasl 和 MS Visual C++ 9.0)但我得到了同样的错误......

这是我的代码:

这是安装在我的虚拟环境中的软件包

有人可以帮我吗?为糟糕的英语道歉。

0 投票
1 回答
1073 浏览

python - python - presto - 时间戳和十进制(38,18)作为字符串返回?

为什么 presto timestamp/decimal(38,18) 数据类型返回一个字符串(包含在 u'' 中)而不是 python datetime/numeric 类型?

快速jdbc:

从 hive.xy 中选择 typeof(col1)、typeof(col2)、typeof(col3)、typeof(col4)、typeof(col5)、typeof(col6)

结果是

timestamp 时间戳 bigint decimal(38,18) varchar varchar

0 投票
0 回答
759 浏览

python - 无法将熊猫数据框写入配置单元表

我正在测试配置单元表和熊猫之间的读写操作。

我可以使用下面的代码成功地从 hive 读取到 pandas 数据框。

我能够读取从 hive 到 pandas df 的表格。

现在尝试使用以下代码编写一个简单的 pandas df 到 hive 表。

但是,我收到一个错误

0 投票
1 回答
1735 浏览

python - 使用带有 kerberos 票证的 pyhive 连接到 kerberized hadoop 集群

我想在我们的 kerberized Hadoop 集群上连接到 Hive,然后从已经有自己的 Kerberose 客户端并且可以工作的机器运行一些 hql 查询(显然是哈哈 :)),keytab 已经通过并测试。

我们的 Hadoop 运行 HWS 3.1 和 CentOS7,我的机器也运行 CentOS7,我使用的是 Python 3.7.3 和 PyHive (0.6.1)。

我已经安装了一堆库(我也尝试卸载它们),因为我正在浏览不同的论坛(HWS,Cloudera,这里是......)

我通过 pip sasl 库安装

  • 纯sasl(0.6.1)
  • pysasl (0.4.1)
  • 萨斯尔 (0.2.1)
  • 节俭-sasl (0.3.0)

我是通过yum安装的

  • 赛勒斯-sasl-2.1.26-23.el7.x86_64
  • cyrus-sasl-lib-2.1.26-23.el7.x86_64
  • cyrus-sasl-plain-2.1.26-23.el7.x86_64
  • saslwrapper-devel-0.16-5.el7.x86_64
  • saslwrapper-0.16-5.el7.x86_64
  • cyrus-sasl-lib-2.1.26-23.el7.i686
  • cyrus-sasl-devel-2.1.26-23.el7.x86_64

下面是我与蜂巢的联系

这是我的 yaml 的一部分

当我尝试运行代码时,出现以下错误。

有没有人走运?障碍在哪里?Pyhive 库,错误的 Kerberos 连接设置?

0 投票
0 回答
1087 浏览

hive - 如何使用 python 连接到 HIVE?

我正在使用一个启用了 kerberous 的 CDH 集群,我想用它pyhive来连接到 HIVE 并读取 HIVE 表。这是我的代码

我得到xyzfrom hive-site.xmlunder的值hive.metastore.uris,但是它说xyz:9083,但是如果我用 9083 替换 10000 ,它会抱怨。

我的问题是当我连接时(使用端口 = 10000),它在执行查询时给了我权限错误,而如果我使用 HIVE CLI 或直线,我可以读取该表。我的问题是 1)如果 xyz 是我应该使用的值?2)我应该使用哪个端口?3)如果一切正确,为什么我仍然遇到权限问题?

0 投票
1 回答
1121 浏览

python - 如何使用 impyla 连接到 impala 或使用 pyhive 连接到 hive?

我正在尝试使用带有此代码的 impyla 连接到 impala:

根据文档,该库需要版本 0.2.1 中的 thrift_sasl 但我无法安装它,因为它显示此错误

当我安装最新版本的 thrift_sasl jupyter 时出现此错误:

我还尝试使用以下代码通过 pyhive 进行连接:

它要我安装 sasl,但是当我尝试这样做时,它表明:

有任何想法吗?