问题标签 [apache-kudu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2274 浏览

cloudera - 将文本文件加载到 Apache Kudu 表中?

如何将文本文件加载到 Apache Kudu 表?

源文件需要先在HDFS空间吗?

如果它与其他 hadoop 生态系统程序(即/hive、impala)不共享相同的 hdfs 空间,是否有 Apache Kudu 等效于:

在我尝试加载文件之前?

0 投票
2 回答
2183 浏览

hive - Kudu 与 PySpark2:KuduStorageHandler 出错

我正在尝试使用 PySpark 2.1.0 读取存储为 Kudu 的数据

我在集群上安装了 Kudu 1.2.0。这些是 hive/Impala 表。

当我执行最后一行时,出现以下错误:

我指的是以下资源:

我很想知道如何将 Kudu 相关的依赖项包含到我的 pyspark 程序中,以便我可以克服这个错误。

0 投票
1 回答
1950 浏览

hive - 使用 SparkSQL 读取 Impala 表

我试图执行一个查询,该查询具有诸如lead .. over .. partition 和 Union 之类的功能。当我尝试在 impala 上运行它但在 Hive 上失败时,此查询运行良好。

我需要编写一个执行此查询的 Spark 作业。它在 SparkSQL 中也失败了,我的假设是因为 Spark 1.6 在内部使用 HiveQL 来完成上述任务。

从 SparkSQL 读取 impala 表有什么不同的方法吗?因为在 Hive 中工作的基本查询和两者都可以在 SprkSQL 上正常工作。

FYR 我要运行的查询:

和错误信息:

0 投票
2 回答
338 浏览

data-visualization - 如何在 Apache Kudu 中可视化数据?

是否可以在 Apache Kudu 中可视化数据?有什么指导方针吗?

0 投票
0 回答
998 浏览

impala - 删除对 Kudu 表的 impala 引用

我有一个 Impala Kudu 设置,其中有下表:

在此之后,我创建了另一个表,但不小心给了它相同的表kude.table_name

我删除了 Impala 中的第二个表,但现在第一个表仍然存在于表列表中,但如果我尝试使用它,我会得到一个表不存在错误。如果我尝试重新创建表,则会收到表已存在错误。

所以 kudu 表impala_tabl消失了,但 Impala 引用仍然存在于元存储中的某个地方。

我已尝试更改 impala 表以指向另一个 kudu 表名,但我无法更改该表(不存在)。还尝试了REFRESH,但没有成功。

有谁知道我如何删除这个 Impala 参考?

修复:我创建了一个指向同一个 kudu 表的新 Impala 表。然后我将表更改为外部表。之后,我能够删除外部表和我在第一步中创建的表。

0 投票
1 回答
1417 浏览

sql - 最接近 Apache Kudu 的 Amazon Web Services *native* 产品是什么?

我正在寻找本机产品,例如任何 RDS 解决方案、Elastic Cache、Amazon Redshift,而不是我必须自己托管的东西。

来自 Apache Kudu:https ://kudu.apache.org/:

据我了解,Kudu 是一个用于表格数据的列式分布式存储引擎,它允许快速扫描和临时分析查询,但也允许随机更新和插入。每个表都有一个主键,您可以使用它来查找和更新单个记录...

0 投票
0 回答
527 浏览

impala - Impala KUDU 表 - 如何批量更新

我需要更新 KUDU 表,有没有批量更新 du 的选项?

流程如下: 1 .Fetch 1000 行 2. 处理行,为每一行计算新值 3. 用新值更新 KUDU 表

逐行更新,每行一个数据库查询 - 慢。我正在寻求批量更新解决方案。我发现只有这个“您可以使用批量插入中概述的相同方法批量更新。” 在这里https://www.cloudera.com/documentation/kudu/latest/topics/kudu_impala.html#update_bulk但如何解决这个问题?我需要例子,如果可能的话谢谢

0 投票
4 回答
2460 浏览

apache-spark-sql - Spark结构化流到kudu上下文

我想阅读 kafka 主题,然后通过 spark 流将其写入 kudu 表。

我的第一种方法

现在它抱怨

我的第二种方法

看来我将代码更改为使用传统的 KafkaUtils.createDirectStream

那么,哪种方法是正确的呢?或者有什么办法让它从第一种方法运行?

Spark 版本为 2.2.0。

0 投票
1 回答
1137 浏览

ddl - Kudu 表列包含创建的时间戳

我们正在尝试创建一个 kudu 表,该表应包含一个列,其中包含插入记录时的时间戳。

我们尝试了以下方法:

但这load_dttm timestamp始终是创建表的时间,而不是插入记录的时间。

任何方向将不胜感激。提前致谢!

0 投票
1 回答
823 浏览

apache-spark - SPARK KUDU 可以直接或通过 Impala JDBC 驱动程序进行复杂更新语句吗?

如果我查看 Imapala Shell 或 Hue,我可以为 KUDU 编写足够复杂的 IMPALA 更新语句。例如用子选择更新什么的。美好的。

查看旧的 JDBC 连接方法,例如通过 SPARK / SCALA 的 mySQL,通过这种连接进行复杂更新的可能性不大,这是可以理解的。但是,有了 KUDU,我认为情况会发生变化。

查看关于 KUD​​U - Apache KUDU - 使用 Apache KUDU 开发应用程序的文档,以下问题:

  1. 目前尚不清楚我是否可以通过 IMPALA JDBC 驱动程序从 SPARK / SCALA 环境发出复杂的更新 SQL 语句(由于 KUD​​U 的安全问题)。
  2. 在 SPARK KUDU 原生模式中,DML 似乎与带有 INSERT 和 UPSERT 的数据框方法相关联。如果我只想编写像 UPDATE 这样的自由格式 SQL DML 语句怎么办?我看到我们可以使用 Spark SQL 将(默认视为 UPSERT)插入到 Kudu 表中。例如

    /li>
  3. 我对 SPARK SQL INSERT ... 的理解是,KUDU 表也必须是临时表。我不能直接接近它。那么,考虑到这一切,我们如何才能直接在 SPARK 中处理 KUDU 表呢?我们不能在 SPARK / KUDU 中,并且通过 Impala JDBC 连接通过 SPARK SCALA / KUDU 或 SPARK SCALA 到 KUDU 的复杂 UPDATES 语句也不允许这样做。在我注意到的某些情况下,我可以通过带有保存的环境变量的 shell 脚本来做一些事情。