问题标签 [apache-kudu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
3320 浏览

apache-spark - 无法从 Spark 连接到 Kudu

我无法从 Spark 正确连接到 Kudu,错误提示“Kudu master 没有领导者”

  • CDH 5.14
  • 酷都 1.6
  • Spark 1.6.0 独立版和 2.2.0

当我在 HUE 中使用 Impala 创建和查询 kudu 表时,它可以完美运行。

但是,从 Spark 连接会引发一些我无法解读的错误。

我尝试过同时使用 pyspark 和 spark-shell。使用 spark shell 我不得不使用 spark 1.6 而不是 2.2,因为一些 maven 依赖问题,我已经本地化但无法修复。更多信息在这里。


案例1:使用pyspark2(Spark 2.2.0)

案例 2:使用 spark-shell(独立 Spark 1.6.0):

它似乎正在连接,因为它能够显示列名,但如果我

砰!

正如我所说,Kudu 服务正在运行,我可以使用 Impala 从 Hue 查询 kudu 表。

我在这里想念什么?这是将 Spark 与 Kudu 连接的正确方法吗?

谢谢

0 投票
1 回答
832 浏览

apache-spark - 使用主纱线提交 Spark2 时出现错误“必须设置 URL”

我遇到了一个例外,org.apache.spark.SparkException: A master URL must be set in your configuration

spark2-submit与选项deploy-mode = clustermaster = yarn. 据我了解,以纱线为主,我不应该得到这个例外。


提交脚本

例外

集群是运行 Spark 2.2 的 Cloudera 集群我注意到应用程序的 KuduSink 是异常消息的一部分,也许主 URL 错误来自 KuduContext?但是,在本地为开发人员运行此应用程序时,我没有收到此类错误。

0 投票
0 回答
249 浏览

apache-spark - Spark Streaming - Arb。状态 - Upsert 到 Kudu

希望有人可以提供帮助。

我正在尝试将一些数据流式传输并将 IoT 设备的当前状态保存到 Kudu 中。

我目前正在为接收器使用 ForeachWriter - 遗憾的是,它仅在有一行时才有效,如果有不止一行,它会挂起并且不会将任何数据写入 Kudu 表。

有没有人见过这个?

代码:

0 投票
1 回答
145 浏览

apache-kudu - APACHE Kudu 本身不支持范围删除或更新

要求对 KUDU 进行澄清。

在 KUDU 指南中说明了以下内容:

行删除和更新操作还必须指定要更改的行的完整主键。Kudu 本身不支持范围删除或更新

第一部分是有道理的。但是,通过 Hue 使用 IMPALA,我可以轻松地发出与散文中突出显示部分相关的命令:

按预期执行。

该声明是否意味着 IMPALA 允许这样做?无法从文档中找到它。我一定错过了一些基本的东西。

0 投票
1 回答
446 浏览

docker - 在 docker 中运行 Kudu 和 master 到 tserver 双向连接/循环链接问题 - docker composition

当两个容器需要通过 DNS 相互连接时,如何运行 Kudu,它需要两个容器 - 一个用于 master,一个用于 docker 下的 tserver。

Kudu 可以使用以下命令在 Docker 下运行:

和:

然而,上面定义了一个单向链接,从kudu-tserverkudu-master而不是反之。

为了让 Kudu 正常运行,麻烦kudu-master并且kudu-tserver需要能够相互连接。

如何配置 Docker 容器,以便双向链接起作用?

0 投票
1 回答
1215 浏览

apache-spark - 使用 Spark 截断 Kudu 表

从火花中截断 kudu 表的最佳方法是什么?有没有类似 SQL "TRUNCATE TABLE_NAME;" 还是“从 TALBE_NAME 中删除;”?

我刚刚设法找到 kuduContext.deleteRows,但它需要明确的规范行才能删除。

或者我应该使用 KuduClient 而不是 Spark 进行此类操作?

0 投票
1 回答
108 浏览

python - 如何检索 Apache Kudu 表列的 MIN 值?

我正在使用 PySpark 连接到我的 Kudu 数据库。我想用一组谓词检索列中的最小值。似乎在 API 中找不到选项

以上将检索一个列表,但我不确定如何指定我想要金额列的 MIN 值。

试过了

但这会导致 MIN is not defined 错误。

0 投票
1 回答
520 浏览

apache - 时间戳主键 Kudu

我正在尝试通过信封将数据加载到 Kudu 表中。主键列之一是时间戳。DDL : CREATE TABLE BAL (client_id int bal_id int, effective_time timestamp, prsn_id int, bal_amount double, prsn_name string, PRIMARY KEY (client_id, bal_id, effective_time) ) PARTITION BY HASH(client_id) PARTITIONS 8 存储为 KUDU;

但它抛出错误 Java.lang.illelegalArgumentException

所以我的问题很简单 - 时间戳列可能是主键的一部分吗?

0 投票
1 回答
1420 浏览

cloudera - 如何在 cloudera quickstart VM 中创建 kudu 表

我一直在尝试按照此示例 https://kudu.apache.org/docs/quickstart.html使用 cloudera 快速启动 VM 在 impala 中创建一个 kudu 表

收到以下错误:

错误:AnalysisException:不使用 impalad 启动标志 -kudu_master_hosts 时需要表属性“kudu.master_addresses”。使用的虚拟机是 cloudera-quickstart-vm-5.13.0-0-virtualbox。在此先感谢您的帮助

0 投票
1 回答
864 浏览

database-design - 如何在 Apache Kudu 中索引模式

我必须在 Apache Kudu 中创建一个表。我知道我们可以使用 Apache Impala 在 Apache kudu 中进行查询,但我想在 Apache kudu 中创建一些索引以使查询处理更快,我的问题是 Apache Kudu 和 Apache Impala 是否支持 CREATE INDEX 查询以及有什么区别在分区和索引之间。如果我对 Kudu 表进行分区,是否足以建立索引?