问题标签 [apache-kudu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database-design - 如何在 Apache Kudu 中建模一对多关系?
我正在尝试在 Apache Kudu 中建模一对多关系。
综上所述,Apache Kudu 没有:
- 外键
- 数组数据类型
- JSON 支持
因此,通常的建模方法不可用。
我如何建模这种关系?
apache-drill - Apache Drill Kudu 查询不支持范围 + 哈希多级分区
Drill Kudu 查询不支持 range + hash 多级分区。
Kudu 表:
然后将 20002 行插入 test1,但查询不支持。查询 sql : select count(1) kudu.table_name, result : **No result found.**
hive - 为 presto 配置 Hive Metastore 并从 s3 和 apache kudu 查询数据
我对 Presto 和 hive 很陌生。在我们的一个应用程序中,我们想使用 presto 从 apache kudu 和 aws s3 查询数据。据我所知,presto 有自己的目录(元)服务,但我们想配置 hive 元存储(没有 hadoop 和 hive),以便将来其他应用程序(例如 spark)可以使用 hive 元存储从 Kudu 和 s3 查询数据。我一直在使用最新版本的 presto 和 kudu。
有人可以帮我配置这个系统吗?
谢谢并恭祝安康
scala - 将 Slick 与 Kudu/Impala 一起使用
Kudu 表可以通过 Impala 访问,因此它的 jdbc 驱动程序。多亏了它可以通过标准的 java/scala jdbc api 访问。我想知道是否可以使用 slick 。或者,如果不是任何其他支持 impla/kudu 的高级 scala db 框架。
api - 使用 KUDU Client API 创建表时,如何设置主键的列顺序?
我正在尝试编写代码,使用 JAVA KuduClient API 将一些表从 SQL Server 传输到 KUDU。在 SQL 上,我得到一个具有复合主键的表(例如:PRIMARY KEY ([ID], [DATA_SOURCE]))。如何保证 KUDU 上的主键列的顺序相同?
scala - Spark dataframe cast column for Kudu compatibility
(I am new to Spark, Impala and Kudu.) I am trying to copy a table from an Oracle DB to an Impala table having the same structure, in Spark, through Kudu. I am getting an error when the code tries to map an Oracle NUMBER
to a Kudu data type. How can I change the data type of a Spark DataFrame
to make it compatible with Kudu?
This is intended to be a 1-to-1 copy of data from Oracle to Impala. I have extracted the Oracle schema of the source table and created a target Impala table with the same structure (same column names and a reasonable mapping of data types). I was hoping that Spark+Kudu would map everything automatically and just copy the data. Instead, Kudu complains that it cannot map DecimalType(38,0)
.
I would like to specify that "column #1, with name SOME_COL, which is a NUMBER
in Oracle, should be mapped to a LongType
, which is supported in Kudu".
How can I do that?
impala - 在 Impala 中将非 Kudu 转换为 Kudu 表
update statement
当我使用下面的代码时,黑斑羚有问题
它返回错误消息:
我想知道我是否可以将我的非 Kudu 表更改为 Kudu 表,或者update statement
在 Impala 中是否有非 Kudu 的替代品。TIA
jdbc - 为什么从 BigDecimal 转换为 DECIMAL 时 impala-jdbc 会抛出异常?
我正在使用 impala-jdbc 2.6.4.1005 写入 Kudu 表。
将值为 7896163500 的 BigDecimal 插入 DECIMAL(20,2) 时出现此错误。
但是,我插入的值也适合 DECIMAL(12,2)。我不明白为什么我会从驱动程序那里收到此错误。
如果我将列定义为 DECIMAL(30,2) 它可以正常工作。
此外,如果我尝试手动进行演员表,我会得到预期的结果:
sql - 为什么插入重复主键时 Kudu 不会失败?
来自 Impala 文档:
在大多数关系数据库中,如果您尝试插入已经插入的行,则插入将失败,因为主键会重复。然而,Impala不会使查询失败。相反,它将生成警告,但继续执行插入语句的其余部分。
为什么 Impala/Kudu 会那样做?请注意,插入不会更新值(有一个 upsert 命令),它只会默默地失败。
有没有办法知道我正在插入重复的主键?
apache-spark - “避免每个集群有多个 Kudu 客户端”是什么意思?
我正在查看 kudu 的文档。
下面是对 kudu-spark 的部分描述。
https://kudu.apache.org/docs/developing.html#_avoid_multiple_kudu_clients_per_cluster
避免每个集群有多个 Kudu 客户端。
一种常见的 Kudu-Spark 编码错误是实例化额外的
KuduClient
对象。在 kudu-spark 中, aKuduClient
由KuduContext
. Spark 应用程序代码不应创建另一个KuduClient
连接到同一个集群。相反,应用程序代码应该使用KuduContext
来访问KuduClient
usingKuduContext#syncClient
。要诊断
KuduClient
Spark 作业中的多个实例,请在日志中查找 master 被许多GetTableLocations
或GetTabletLocations
来自不同客户端的请求(通常大约在同一时间)超载的迹象。这种症状在 Spark Streaming 代码中尤为常见,其中创建KuduClient
每个任务将导致来自新客户端的周期性主请求波。
这是否意味着我一次只能运行一个 kudu-spark 任务?
如果我有一个始终将数据写入 kudu 的 spark-streaming 程序,我如何使用其他 spark 程序连接到 kudu?