问题标签 [impyla]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
517 浏览

python - 有没有办法使元数据无效并从 CDSW 中的 python 代码重建索引?

我在 CDSW 中使用 Impyla 和 Python 来查询 HDFS 中的数据并使用它。问题有时是获取我必须进入的所有数据并手动单击 HUE 中的“使所有元数据无效并重建索引”按钮。

有没有办法在工作台中使用库或 python 代码来做到这一点?

0 投票
1 回答
1121 浏览

python - 如何使用 impyla 连接到 impala 或使用 pyhive 连接到 hive?

我正在尝试使用带有此代码的 impyla 连接到 impala:

根据文档,该库需要版本 0.2.1 中的 thrift_sasl 但我无法安装它,因为它显示此错误

当我安装最新版本的 thrift_sasl jupyter 时出现此错误:

我还尝试使用以下代码通过 pyhive 进行连接:

它要我安装 sasl,但是当我尝试这样做时,它表明:

有任何想法吗?

0 投票
1 回答
137 浏览

python-3.x - 连接到 Impala Kerberos Hadoop 的问题 - Windows/Python 3.6

我进行了广泛的搜索,但没有什么对我有用。代码是这样的:

尝试了以下许多不同版本,但目前这里有任何可能的相关库:

蟒蛇 3.6.9

impyla 0.14.0

纯sasl 0.6.2

pysasl 0.5.0

萨斯勒 0.2.1

节俭 0.13.0

节俭-sasl 0.3.0

节俭 0.3.9

thriftpy2 0.4.8

任何帮助将不胜感激。

0 投票
1 回答
397 浏览

python - Python - unable to read a large file

How do I read a large table from hdfs in jupyter-notebook as a pandas DataFrame? The script is launched through the docker image.

libraries:

  • sasl==0.2.1
  • thrift==0.11.0
  • thrift-sasl==0.4a1
  • Impyla==0.16.2

This works.

This does not work. The operation hangs, does not give errors.

0 投票
2 回答
275 浏览

python - 如何理解 Apache Impala 的 zlib 压缩查询配置文件

Impala 当前将查询配置文件日志保存在 /var/log/impala/profiles 中,格式为每行

正如他们在https://impala.apache.org/docs/build/html/topics/impala_logging.html的文档中提到的

“为了节省空间,这些查询配置文件现在存储在 /var/log/impala/profiles 中的 zlib 压缩文件中。”

我想使用一些实用程序而不是在 25000 处公开的 Web UI 以人类可读格式解码/解压缩 zlib 压缩数据。

从日志和文档中,我已经能够弄清楚 zlib 压缩数据是使用 base64 编码的。我能够编写一个python代码来解压zlib-compression,

上面的 Python 实用程序给出了以下输出,其中包含一些有意义的信息,但并不完整。

任何以编程方式理解/解析 Impala 配置文件日志的指针都会非常有用。

0 投票
1 回答
928 浏览

python - 宜必思用 pandas 数据框创建 impala 表并得到 [错误 61] 连接被拒绝

执行 impyla sql 语句后,我将结果转换为 pandas 数据帧格式。但现在我想使用 Apache Ibis 在 impala 上自动创建一个临时表来创建表并将数据帧加载到其中。以下代码分为3个阶段:

  1. 阶段 1 使用用户定义的模式创建一个空表
  2. 阶段 2 创建一个表,该表的模式和数据来自另一个表
  3. 第 3 阶段是我想做的主要部分(假设给出了数据框)

错误代码如下所示。有谁知道这是怎么回事?因为配置是一样的,我不知道为什么在执行阶段3时会出现连接异常。

十分感谢 !

结果表明:

问候, XY.Ltw

0 投票
1 回答
384 浏览

ssl - 使用 Superset 在 Impala 上运行查询时出错

我正在尝试将 impala 连接到超集,当我测试连接时打印:“看起来不错!”,当我尝试使用左侧的 SQL 编辑器查看 impala 上的数据库时,它显示所有数据库都没有问题。

数据库/表预览

但是当我编写查询并单击“运行查询”时,它会给出错误:“无法启动 SASL:sasl_client_start (-1) SASL(-1) 中的 b'Error:一般故障:GSSAPI 错误:未指定的 GSS 故障。次要代码可能会提供更多信息(票已过期)'"

运行查询时出错

我在 Kerberized Hadoop 集群中使用 SSL 和生产模式(使用 Gunicorn)和使用 SSL 的 Impala 运行超集,我的 impala 数据库配置是:

Impala 配置

在我放的额外内容中:

我该如何解决这个错误?在我的超集日志中,它只显示:

版本:Superset 0.36.0、Impyla 0.16.2

0 投票
1 回答
613 浏览

impala - 如何在 Superset 上模拟 Impala 查询

我在生产模式(使用 Gunicorn)下设置 Superset(0.36.0),并且我想在我的 Kerberized 集群上运行 Impala 查询时设置模拟,Superset 的每个用户都像他一样拥有表/数据库的特权在 Hive/Hue/HDFS 上。我试图在我的数据库配置中将“模拟登录用户”设置为 true,但它并没有改变运行查询的用户,它总是使用 celery-worker 用户。

我的数据库配置是:

顶级数据库配置 数据库配置结束

附加功能:

我在 Cloudera Manager (5.13) 中的查询简历:

在 CM 中查询

如何在我的 Superset 中正确启用模拟?也许与impala.doas.userHiveServer2 连接中的配置有关,但我不知道如何正确配置。

0 投票
1 回答
542 浏览

python - AWS Lambda 错误:无法导入模块“function_name”:没有名为“module._module”的模块

请在阅读后特别查看屏幕截图。

我正在 AWS Lambda 上部署一个 python 脚本,它使用impyla依赖于包的包bitarray

我的 python 文件被调用,它有一个被正确配置authorize_ingress.py的函数。handle_authorize_ingress(event, context)请参阅下面的屏幕截图:

我的函数文件:

功能

lambda 中的处理程序指定:

处理程序

代码本身的处理程序:

处理程序

我的 zip 文件的所有内容都在根目录中(而不是嵌套在目录中):

文件

该软件包bitarray通过以下方式自动安装impyla

位数组

每一次,我都会收到这样的回应:

回复

截至目前,我已尝试:

  • 该软件包是使用zip -r选项生成的。
  • 这些文件位于 zip 的根目录中,而不是嵌套在目录中。
  • 该功能在本地运行良好。
  • 我已经尝试过virtualenv,只是在路径中安装依赖项,packages/但没有运气

有什么想法我可能做错了吗?我按照AWS 的 Lambda 部署指南生成了我的部署包。任何帮助将不胜感激,谢谢!

0 投票
1 回答
1162 浏览

python - Impyla 连接。无法启动 SASL。没有可用的机制

我正在尝试使用 impyla 连接到 impala,每次我收到此错误

我已经安装了:

我正在使用连接

我以前在 python 2.7 上使用过它并且它正在工作,现在当我移到 3.6 时它停止了。

编辑:我正在挖掘更多,似乎 thrift_sasl 无法识别“LDAP”身份验证