问题标签 [apache-kudu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
640 浏览

python-3.x - 如何在我的 cloudera 集群中找到哪个 KUDU DB 的 KUDU 主名称或端口?

我正在尝试将 Spark 数据帧写入 Kudu DB,但我不知道 Kudu 大师。我使用的集群是 Cloudera 集群。

如何在集群中找到 Kudu master?

0 投票
1 回答
204 浏览

python - how handle this error that i am facing when trying to write from SQL to Kudu via Pyspark

I want to write a huge table from SQL to Kudu Table, I am not able to write it to a Kudu table.

With the following code:

but I am getting the following error:

An error occurred while calling o202.save. : java.lang.AbstractMethodError: org.apache.kudu.spark.kudu.DefaultSource.createRelation(Lorg/apache/spark/sql/SQLContext;Lorg/apache/spark/sql/SaveMode;Lscala/collection/immutable/Map;Lorg/apache/spark/sql/Dataset;)Lorg/apache/spark/sql/sources/BaseRelation;

0 投票
1 回答
243 浏览

impala - Impala 并发查询延迟

我的集群配置如下:

  1. 3节点集群
  2. 每个集群节点 128GB RAM。
  3. 处理器:每个集群节点 16 核超线程。所有 3 个节点都有 Kudu master 和 T-Server 和 Impala 服务器,其中一个节点有 Impala 目录和 Impala StateStore。

我的问题如下:

1) 在运行并发查询时,我很难弄清楚 Impala 中的动态资源池。我试过给mem_limit还是没有运气。我也尝试过静态服务池,但我也无法实现所需的并发性。即使有准入控制,也没有达到所需的并发性。

2)我的一个集群节点在提交查询后没有承担负载,我通过查询摘要检查了这一点。我已尝试在未承受负载的节点上将 NUM_NODES 指定为 0 和 1,但摘要仍显示该节点未承受负载。

0 投票
2 回答
1715 浏览

python - 如何从 Kudu 读取到 python

我正在尝试从 Kudu 检索数据。但我无法在 anaconda 或我的服务器中安装 kudu-python 包。我能得到一些帮助吗?互联网上的文档不是很清楚。

0 投票
2 回答
376 浏览

impala - Kudu 表评论未显示。我应该怎么办?

这是我对 impala-shell 的创建语句:

当我进入时,desc tmp.demo0011;我得到:

评论区什么都没有。为什么?

谢谢。

0 投票
0 回答
377 浏览

apache-spark - Kudu 客户端在运行几天后失败并出现异常

我有一个运行的 Scala/Spark/Kafka 进程。当我第一次开始这个过程时,我使用我在类之间共享的一个函数创建了一个 KuduClient 对象。对于这项工作,我只创建了一次 KuduClient,并让进程连续运行。我注意到几天后我经常遇到异常。

我不确定该怎么做。我认为也许一种选择是每天左右创建一个新的 Kudu 客户端,但我不确定在这种情况下如何做到这一点。

以下例外。我已经删除了 IP 地址,而不是使用“x”

错误 client.TabletClient: [Peer master-ip-xxx-xx-xxx-40.ec2.internal:7051] 来自下游的意外异常 [id: 0x42ba3f4d, /xxx.xx.xxx.39:36820 => ip-xxx -xxx-xxx-40.ec2.internal/xxx.xx.xxx.40:7051] java.lang.RuntimeException:无法反序列化响应,RPC不兼容?错误是:在 org.apache.kudu.client.Negotiator.parseSaslMsgResponse(Negotiator.java:282) 在 org.apache.kudu.client 的步骤 org.apache.kudu.client.KuduRpc.readProtobuf(KuduRpc.java:383) .Negotiator.handleResponse(Negotiator.java:235) 在 org.apache.kudu.client.Negotiator.messageReceived(Negotiator.java:229) 在 org.apache.kudu.client.shaded.org.jboss.netty.channel.SimpleChannelUpstreamHandler .handleUpstream(SimpleChannelUpstreamHandler.java:70) 在 org.apache.kudu.client.shaded.org.jboss.netty。

在运行一段时间后,我还看到了类似的异常,其他人似乎将其归因于用户的打开文件句柄限制。

java.io.IOException:所有数据节点 DatanodeInfoWithStorage[xxx.xx.xxx.36:1004,DS-55c403c3-203a-4dac-b383-72fcdb686185,DISK] 都是坏的。中止...在 org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DFSOutputStream.java:1236) 在 org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.setupPipelineForAppendOrRecovery(DFSOutputStream.java:1465) 在 org.apache .hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputSt

这是否与打开文件过多有关?一旦达到限制,一种“清除”这些文件的方法?

0 投票
1 回答
1104 浏览

python-3.x - 是否可以从 PySpark Dataframe 轻松创建 Kudu 表?

理想情况下,以下代码片段将起作用:

但是 client.create_table 需要一个 kudu.schema.Schema 而不是来自数据帧的结构。但是在 Scala 中,您可以这样做(来自https://kudu.apache.org/docs/developing.html):

现在我想知道是否可以在不使用 kudu 模式构建器手动定义每一列的情况下对 PySpark 执行相同的操作?

0 投票
0 回答
167 浏览

apache-spark - 使用 Spark / Scala 写入 Kudu 时遇到错误

我正在尝试从 Spark 将数据写入 Kudu,但出现此错误

代码示例:

使用的库:

谢谢!

0 投票
0 回答
806 浏览

pyspark - 在 pyspark 中使用 KuduContext

我想将 kudu 与 pyspark 一起使用。虽然我可以使用它:

我找不到导入 KuduContext 的方法。我正在使用 jupyter 笔记本,并将其导入:

我不工作的代码:

死于错误:


我也试过:

死于错误:

0 投票
1 回答
225 浏览

apache-spark - pyspark:如果键不存在或 row.timestamp 更新,则插入数据帧

我有一个 Kudu 数据库,里面有一个表。每天,我都会启动一个批处理作业,它接收要摄取的新数据(ETL 管道)。

如果出现以下情况,我想插入新数据:

  • 钥匙不存在
  • 如果键存在,则仅当新行的时间戳列更新时才更新该行