问题标签 [apache-kudu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 无法从 Spark 连接到 Kudu
我无法从 Spark 正确连接到 Kudu,错误提示“Kudu master 没有领导者”
- CDH 5.14
- 酷都 1.6
- Spark 1.6.0 独立版和 2.2.0
当我在 HUE 中使用 Impala 创建和查询 kudu 表时,它可以完美运行。
但是,从 Spark 连接会引发一些我无法解读的错误。
我尝试过同时使用 pyspark 和 spark-shell。使用 spark shell 我不得不使用 spark 1.6 而不是 2.2,因为一些 maven 依赖问题,我已经本地化但无法修复。更多信息在这里。
案例1:使用pyspark2(Spark 2.2.0)
案例 2:使用 spark-shell(独立 Spark 1.6.0):
它似乎正在连接,因为它能够显示列名,但如果我
砰!
正如我所说,Kudu 服务正在运行,我可以使用 Impala 从 Hue 查询 kudu 表。
我在这里想念什么?这是将 Spark 与 Kudu 连接的正确方法吗?
谢谢
apache-spark - 使用主纱线提交 Spark2 时出现错误“必须设置 URL”
我遇到了一个例外,org.apache.spark.SparkException: A master URL must be set in your configuration
我spark2-submit
与选项deploy-mode = cluster
和master = yarn
. 据我了解,以纱线为主,我不应该得到这个例外。
提交脚本
例外
集群是运行 Spark 2.2 的 Cloudera 集群我注意到应用程序的 KuduSink 是异常消息的一部分,也许主 URL 错误来自 KuduContext?但是,在本地为开发人员运行此应用程序时,我没有收到此类错误。
apache-spark - Spark Streaming - Arb。状态 - Upsert 到 Kudu
希望有人可以提供帮助。
我正在尝试将一些数据流式传输并将 IoT 设备的当前状态保存到 Kudu 中。
我目前正在为接收器使用 ForeachWriter - 遗憾的是,它仅在有一行时才有效,如果有不止一行,它会挂起并且不会将任何数据写入 Kudu 表。
有没有人见过这个?
代码:
apache-kudu - APACHE Kudu 本身不支持范围删除或更新
要求对 KUDU 进行澄清。
在 KUDU 指南中说明了以下内容:
行删除和更新操作还必须指定要更改的行的完整主键。Kudu 本身不支持范围删除或更新。
第一部分是有道理的。但是,通过 Hue 使用 IMPALA,我可以轻松地发出与散文中突出显示部分相关的命令:
按预期执行。
该声明是否意味着 IMPALA 允许这样做?无法从文档中找到它。我一定错过了一些基本的东西。
docker - 在 docker 中运行 Kudu 和 master 到 tserver 双向连接/循环链接问题 - docker composition
当两个容器需要通过 DNS 相互连接时,如何运行 Kudu,它需要两个容器 - 一个用于 master,一个用于 docker 下的 tserver。
Kudu 可以使用以下命令在 Docker 下运行:
和:
然而,上面定义了一个单向链接,从kudu-tserver
到kudu-master
而不是反之。
为了让 Kudu 正常运行,麻烦kudu-master
并且kudu-tserver
需要能够相互连接。
如何配置 Docker 容器,以便双向链接起作用?
apache-spark - 使用 Spark 截断 Kudu 表
从火花中截断 kudu 表的最佳方法是什么?有没有类似 SQL "TRUNCATE TABLE_NAME;" 还是“从 TALBE_NAME 中删除;”?
我刚刚设法找到 kuduContext.deleteRows,但它需要明确的规范行才能删除。
或者我应该使用 KuduClient 而不是 Spark 进行此类操作?
python - 如何检索 Apache Kudu 表列的 MIN 值?
我正在使用 PySpark 连接到我的 Kudu 数据库。我想用一组谓词检索列中的最小值。似乎在 API 中找不到选项
以上将检索一个列表,但我不确定如何指定我想要金额列的 MIN 值。
试过了
但这会导致 MIN is not defined 错误。
apache - 时间戳主键 Kudu
我正在尝试通过信封将数据加载到 Kudu 表中。主键列之一是时间戳。DDL : CREATE TABLE BAL (client_id int bal_id int, effective_time timestamp, prsn_id int, bal_amount double, prsn_name string, PRIMARY KEY (client_id, bal_id, effective_time) ) PARTITION BY HASH(client_id) PARTITIONS 8 存储为 KUDU;
但它抛出错误 Java.lang.illelegalArgumentException
所以我的问题很简单 - 时间戳列可能是主键的一部分吗?
cloudera - 如何在 cloudera quickstart VM 中创建 kudu 表
我一直在尝试按照此示例 https://kudu.apache.org/docs/quickstart.html使用 cloudera 快速启动 VM 在 impala 中创建一个 kudu 表
收到以下错误:
错误:AnalysisException:不使用 impalad 启动标志 -kudu_master_hosts 时需要表属性“kudu.master_addresses”。使用的虚拟机是 cloudera-quickstart-vm-5.13.0-0-virtualbox。在此先感谢您的帮助
database-design - 如何在 Apache Kudu 中索引模式
我必须在 Apache Kudu 中创建一个表。我知道我们可以使用 Apache Impala 在 Apache kudu 中进行查询,但我想在 Apache kudu 中创建一些索引以使查询处理更快,我的问题是 Apache Kudu 和 Apache Impala 是否支持 CREATE INDEX 查询以及有什么区别在分区和索引之间。如果我对 Kudu 表进行分区,是否足以建立索引?