“impyla”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

517 浏览

python - 有没有办法使元数据无效并从 CDSW 中的 python 代码重建索引？

我在 CDSW 中使用 Impyla 和 Python 来查询 HDFS 中的数据并使用它。问题有时是获取我必须进入的所有数据并手动单击 HUE 中的“使所有元数据无效并重建索引”按钮。

有没有办法在工作台中使用库或 python 代码来做到这一点？

2019-08-01T16:30:25.437

0 投票

1 回答

1121 浏览

python - 如何使用 impyla 连接到 impala 或使用 pyhive 连接到 hive？

我正在尝试使用带有此代码的 impyla 连接到 impala：

根据文档，该库需要版本 0.2.1 中的 thrift_sasl 但我无法安装它，因为它显示此错误

当我安装最新版本的 thrift_sasl jupyter 时出现此错误：

我还尝试使用以下代码通过 pyhive 进行连接：

它要我安装 sasl，但是当我尝试这样做时，它表明：

有任何想法吗？

python hive impala pyhive impyla

2019-09-16T13:49:36.047

0 投票

1 回答

137 浏览

python-3.x - 连接到 Impala Kerberos Hadoop 的问题 - Windows/Python 3.6

我进行了广泛的搜索，但没有什么对我有用。代码是这样的：

尝试了以下许多不同版本，但目前这里有任何可能的相关库：

蟒蛇 3.6.9

impyla 0.14.0

纯sasl 0.6.2

pysasl 0.5.0

萨斯勒 0.2.1

节俭 0.13.0

节俭-sasl 0.3.0

节俭 0.3.9

thriftpy2 0.4.8

任何帮助将不胜感激。

python-3.x kerberos impala sasl impyla

2019-11-20T19:20:57.567

0 投票

1 回答

397 浏览

python - Python - unable to read a large file

How do I read a large table from hdfs in jupyter-notebook as a pandas DataFrame? The script is launched through the docker image.

libraries:

sasl==0.2.1
thrift==0.11.0
thrift-sasl==0.4a1
Impyla==0.16.2

This works.

This does not work. The operation hangs, does not give errors.

python pandas hadoop impyla

2020-03-02T14:35:48.860

0 投票

2 回答

275 浏览

python - 如何理解 Apache Impala 的 zlib 压缩查询配置文件

Impala 当前将查询配置文件日志保存在 /var/log/impala/profiles 中，格式为每行

正如他们在https://impala.apache.org/docs/build/html/topics/impala_logging.html的文档中提到的

“为了节省空间，这些查询配置文件现在存储在 /var/log/impala/profiles 中的 zlib 压缩文件中。”

我想使用一些实用程序而不是在 25000 处公开的 Web UI 以人类可读格式解码/解压缩 zlib 压缩数据。

从日志和文档中，我已经能够弄清楚 zlib 压缩数据是使用 base64 编码的。我能够编写一个python代码来解压zlib-compression，

上面的 Python 实用程序给出了以下输出，其中包含一些有意义的信息，但并不完整。

任何以编程方式理解/解析 Impala 配置文件日志的指针都会非常有用。

python hadoop cloudera impala impyla

2020-04-18T20:54:30.360

0 投票

1 回答

928 浏览

python - 宜必思用 pandas 数据框创建 impala 表并得到 [错误 61] 连接被拒绝

执行 impyla sql 语句后，我将结果转换为 pandas 数据帧格式。但现在我想使用 Apache Ibis 在 impala 上自动创建一个临时表来创建表并将数据帧加载到其中。以下代码分为3个阶段：

阶段 1 使用用户定义的模式创建一个空表
阶段 2 创建一个表，该表的模式和数据来自另一个表
第 3 阶段是我想做的主要部分（假设给出了数据框）

错误代码如下所示。有谁知道这是怎么回事？因为配置是一样的，我不知道为什么在执行阶段3时会出现连接异常。

十分感谢！

结果表明：

问候， XY.Ltw

python python-3.x impala impyla ibis

2020-04-30T08:57:26.357

0 投票

1 回答

384 浏览

ssl - 使用 Superset 在 Impala 上运行查询时出错

我正在尝试将 impala 连接到超集，当我测试连接时打印：“看起来不错！”，当我尝试使用左侧的 SQL 编辑器查看 impala 上的数据库时，它显示所有数据库都没有问题。

数据库/表预览

但是当我编写查询并单击“运行查询”时，它会给出错误：“无法启动 SASL：sasl_client_start (-1) SASL(-1) 中的 b'Error：一般故障：GSSAPI 错误：未指定的 GSS 故障。次要代码可能会提供更多信息（票已过期）'"

运行查询时出错

我在 Kerberized Hadoop 集群中使用 SSL 和生产模式（使用 Gunicorn）和使用 SSL 的 Impala 运行超集，我的 impala 数据库配置是：

Impala 配置

在我放的额外内容中：

我该如何解决这个错误？在我的超集日志中，它只显示：

版本：Superset 0.36.0、Impyla 0.16.2

ssl kerberos apache-superset superset impyla

2020-05-06T16:07:30.927

0 投票

1 回答

613 浏览

impala - 如何在 Superset 上模拟 Impala 查询

我在生产模式（使用 Gunicorn）下设置 Superset（0.36.0），并且我想在我的 Kerberized 集群上运行 Impala 查询时设置模拟，Superset 的每个用户都像他一样拥有表/数据库的特权在 Hive/Hue/HDFS 上。我试图在我的数据库配置中将“模拟登录用户”设置为 true，但它并没有改变运行查询的用户，它总是使用 celery-worker 用户。

我的数据库配置是：