问题标签 [apache-kudu]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 问题

0 投票

1 回答

2274 浏览

cloudera - 将文本文件加载到 Apache Kudu 表中？

如何将文本文件加载到 Apache Kudu 表？

源文件需要先在HDFS空间吗？

如果它与其他 hadoop 生态系统程序（即/hive、impala）不共享相同的 hdfs 空间，是否有 Apache Kudu 等效于：

在我尝试加载文件之前？

cloudera apache-kudu

2017-07-27T21:44:39.617

0 投票

2 回答

2183 浏览

hive - Kudu 与 PySpark2：KuduStorageHandler 出错

我正在尝试使用 PySpark 2.1.0 读取存储为 Kudu 的数据

我在集群上安装了 Kudu 1.2.0。这些是 hive/Impala 表。

当我执行最后一行时，出现以下错误：

我指的是以下资源：

我很想知道如何将 Kudu 相关的依赖项包含到我的 pyspark 程序中，以便我可以克服这个错误。

2017-08-24T22:33:57.300

0 投票

1 回答

1950 浏览

hive - 使用 SparkSQL 读取 Impala 表

我试图执行一个查询，该查询具有诸如lead .. over .. partition 和 Union 之类的功能。当我尝试在 impala 上运行它但在 Hive 上失败时，此查询运行良好。

我需要编写一个执行此查询的 Spark 作业。它在 SparkSQL 中也失败了，我的假设是因为 Spark 1.6 在内部使用 HiveQL 来完成上述任务。

从 SparkSQL 读取 impala 表有什么不同的方法吗？因为在 Hive 中工作的基本查询和两者都可以在 SprkSQL 上正常工作。

FYR 我要运行的查询：

和错误信息：

hive pyspark impala apache-spark-1.6 apache-kudu

2017-08-28T19:47:05.777

0 投票

2 回答

338 浏览

data-visualization - 如何在 Apache Kudu 中可视化数据？

是否可以在 Apache Kudu 中可视化数据？有什么指导方针吗？

data-visualization apache-kudu

2017-09-08T15:26:17.793

0 投票

0 回答

998 浏览

impala - 删除对 Kudu 表的 impala 引用

我有一个 Impala Kudu 设置，其中有下表：

在此之后，我创建了另一个表，但不小心给了它相同的表kude.table_name

我删除了 Impala 中的第二个表，但现在第一个表仍然存在于表列表中，但如果我尝试使用它，我会得到一个表不存在错误。如果我尝试重新创建表，则会收到表已存在错误。

所以 kudu 表impala_tabl消失了，但 Impala 引用仍然存在于元存储中的某个地方。

我已尝试更改 impala 表以指向另一个 kudu 表名，但我无法更改该表（不存在）。还尝试了REFRESH，但没有成功。

有谁知道我如何删除这个 Impala 参考？

修复：我创建了一个指向同一个 kudu 表的新 Impala 表。然后我将表更改为外部表。之后，我能够删除外部表和我在第一步中创建的表。

impala apache-kudu

2017-10-09T07:57:22.217

0 投票

1 回答

1417 浏览

sql - 最接近 Apache Kudu 的 Amazon Web Services native 产品是什么？

我正在寻找本机产品，例如任何 RDS 解决方案、Elastic Cache、Amazon Redshift，而不是我必须自己托管的东西。

来自 Apache Kudu：https ://kudu.apache.org/：

据我了解，Kudu 是一个用于表格数据的列式分布式存储引擎，它允许快速扫描和临时分析查询，但也允许随机更新和插入。每个表都有一个主键，您可以使用它来查找和更新单个记录...

sql amazon-web-services bigdata bigtable apache-kudu

2017-10-17T23:16:10.997

0 投票

0 回答

527 浏览

impala - Impala KUDU 表 - 如何批量更新

我需要更新 KUDU 表，有没有批量更新 du 的选项？

流程如下： 1 .Fetch 1000 行 2. 处理行，为每一行计算新值 3. 用新值更新 KUDU 表

逐行更新，每行一个数据库查询 - 慢。我正在寻求批量更新解决方案。我发现只有这个“您可以使用批量插入中概述的相同方法批量更新。” 在这里https://www.cloudera.com/documentation/kudu/latest/topics/kudu_impala.html#update_bulk但如何解决这个问题？我需要例子，如果可能的话谢谢

impala apache-kudu

2017-10-19T14:02:48.480

0 投票

4 回答

2460 浏览

apache-spark-sql - Spark结构化流到kudu上下文

我想阅读 kafka 主题，然后通过 spark 流将其写入 kudu 表。

我的第一种方法

现在它抱怨

我的第二种方法

看来我将代码更改为使用传统的 KafkaUtils.createDirectStream

那么，哪种方法是正确的呢？或者有什么办法让它从第一种方法运行？

Spark 版本为 2.2.0。

apache-spark-sql spark-streaming apache-kudu

2017-10-26T07:28:18.413

0 投票

1 回答

1137 浏览

ddl - Kudu 表列包含创建的时间戳

我们正在尝试创建一个 kudu 表，该表应包含一个列，其中包含插入记录时的时间戳。

我们尝试了以下方法：

但这load_dttm timestamp始终是创建表的时间，而不是插入记录的时间。

任何方向将不胜感激。提前致谢！

ddl apache-kudu

2017-10-31T03:34:47.250

0 投票

1 回答

823 浏览

apache-spark - SPARK KUDU 可以直接或通过 Impala JDBC 驱动程序进行复杂更新语句吗？

如果我查看 Imapala Shell 或 Hue，我可以为 KUDU 编写足够复杂的 IMPALA 更新语句。例如用子选择更新什么的。美好的。

查看旧的 JDBC 连接方法，例如通过 SPARK / SCALA 的 mySQL，通过这种连接进行复杂更新的可能性不大，这是可以理解的。但是，有了 KUDU，我认为情况会发生变化。

查看关于 KUDU - Apache KUDU - 使用 Apache KUDU 开发应用程序的文档，以下问题：

目前尚不清楚我是否可以通过 IMPALA JDBC 驱动程序从 SPARK / SCALA 环境发出复杂的更新 SQL 语句（由于 KUDU 的安全问题）。
在 SPARK KUDU 原生模式中，DML 似乎与带有 INSERT 和 UPSERT 的数据框方法相关联。如果我只想编写像 UPDATE 这样的自由格式 SQL DML 语句怎么办？我看到我们可以使用 Spark SQL 将（默认视为 UPSERT）插入到 Kudu 表中。例如
/li>
我对 SPARK SQL INSERT ... 的理解是，KUDU 表也必须是临时表。我不能直接接近它。那么，考虑到这一切，我们如何才能直接在 SPARK 中处理 KUDU 表呢？我们不能在 SPARK / KUDU 中，并且通过 Impala JDBC 连接通过 SPARK SCALA / KUDU 或 SPARK SCALA 到 KUDU 的复杂 UPDATES 语句也不允许这样做。在我注意到的某些情况下，我可以通过带有保存的环境变量的 shell 脚本来做一些事情。

apache-spark impala apache-kudu

2017-11-08T11:24:45.847

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-kudu]

我的第一种方法

我的第二种方法

Reference