问题标签 [apache-kudu]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 问题

0 投票

3 回答

640 浏览

python-3.x - 如何在我的 cloudera 集群中找到哪个 KUDU DB 的 KUDU 主名称或端口？

我正在尝试将 Spark 数据帧写入 Kudu DB，但我不知道 Kudu 大师。我使用的集群是 Cloudera 集群。

如何在集群中找到 Kudu master？

2018-09-13T21:19:36.370

0 投票

1 回答

204 浏览

python - how handle this error that i am facing when trying to write from SQL to Kudu via Pyspark

I want to write a huge table from SQL to Kudu Table, I am not able to write it to a Kudu table.

With the following code:

but I am getting the following error:

An error occurred while calling o202.save. : java.lang.AbstractMethodError: org.apache.kudu.spark.kudu.DefaultSource.createRelation(Lorg/apache/spark/sql/SQLContext;Lorg/apache/spark/sql/SaveMode;Lscala/collection/immutable/Map;Lorg/apache/spark/sql/Dataset;)Lorg/apache/spark/sql/sources/BaseRelation;

python apache-spark hadoop pyspark apache-kudu

2018-09-18T19:28:14.680

0 投票

1 回答

243 浏览

impala - Impala 并发查询延迟

我的集群配置如下：

3节点集群
每个集群节点 128GB RAM。
处理器：每个集群节点 16 核超线程。所有 3 个节点都有 Kudu master 和 T-Server 和 Impala 服务器，其中一个节点有 Impala 目录和 Impala StateStore。

我的问题如下：

1) 在运行并发查询时，我很难弄清楚 Impala 中的动态资源池。我试过给mem_limit还是没有运气。我也尝试过静态服务池，但我也无法实现所需的并发性。即使有准入控制，也没有达到所需的并发性。

2）我的一个集群节点在提交查询后没有承担负载，我通过查询摘要检查了这一点。我已尝试在未承受负载的节点上将 NUM_NODES 指定为 0 和 1，但摘要仍显示该节点未承受负载。

impala apache-kudu

2018-09-21T06:23:09.080

0 投票

2 回答

1715 浏览

python - 如何从 Kudu 读取到 python

我正在尝试从 Kudu 检索数据。但我无法在 anaconda 或我的服务器中安装 kudu-python 包。我能得到一些帮助吗？互联网上的文档不是很清楚。

python apache-kudu

2018-09-26T21:05:42.097

0 投票

2 回答

376 浏览

impala - Kudu 表评论未显示。我应该怎么办？

这是我对 impala-shell 的创建语句：

当我进入时，desc tmp.demo0011;我得到：

评论区什么都没有。为什么？

谢谢。

impala apache-kudu

2018-10-24T10:32:30.937

0 投票

0 回答

377 浏览

apache-spark - Kudu 客户端在运行几天后失败并出现异常

我有一个运行的 Scala/Spark/Kafka 进程。当我第一次开始这个过程时，我使用我在类之间共享的一个函数创建了一个 KuduClient 对象。对于这项工作，我只创建了一次 KuduClient，并让进程连续运行。我注意到几天后我经常遇到异常。

我不确定该怎么做。我认为也许一种选择是每天左右创建一个新的 Kudu 客户端，但我不确定在这种情况下如何做到这一点。

以下例外。我已经删除了 IP 地址，而不是使用“x”

错误 client.TabletClient: [Peer master-ip-xxx-xx-xxx-40.ec2.internal:7051] 来自下游的意外异常 [id: 0x42ba3f4d, /xxx.xx.xxx.39:36820 => ip-xxx -xxx-xxx-40.ec2.internal/xxx.xx.xxx.40:7051] java.lang.RuntimeException：无法反序列化响应，RPC不兼容？错误是：在 org.apache.kudu.client.Negotiator.parseSaslMsgResponse(Negotiator.java:282) 在 org.apache.kudu.client 的步骤 org.apache.kudu.client.KuduRpc.readProtobuf(KuduRpc.java:383) .Negotiator.handleResponse(Negotiator.java:235) 在 org.apache.kudu.client.Negotiator.messageReceived(Negotiator.java:229) 在 org.apache.kudu.client.shaded.org.jboss.netty.channel.SimpleChannelUpstreamHandler .handleUpstream(SimpleChannelUpstreamHandler.java:70) 在 org.apache.kudu.client.shaded.org.jboss.netty。

在运行一段时间后，我还看到了类似的异常，其他人似乎将其归因于用户的打开文件句柄限制。

java.io.IOException：所有数据节点 DatanodeInfoWithStorage[xxx.xx.xxx.36:1004,DS-55c403c3-203a-4dac-b383-72fcdb686185,DISK] 都是坏的。中止...在 org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DFSOutputStream.java:1236) 在 org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.setupPipelineForAppendOrRecovery(DFSOutputStream.java:1465) 在 org.apache .hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputSt

这是否与打开文件过多有关？一旦达到限制，一种“清除”这些文件的方法？

apache-spark cloudera apache-kudu

2018-10-24T18:46:32.417

0 投票

1 回答

1104 浏览