问题标签 [apache-kudu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cloudera - 将文本文件加载到 Apache Kudu 表中?
如何将文本文件加载到 Apache Kudu 表?
源文件需要先在HDFS空间吗?
如果它与其他 hadoop 生态系统程序(即/hive、impala)不共享相同的 hdfs 空间,是否有 Apache Kudu 等效于:
在我尝试加载文件之前?
hive - Kudu 与 PySpark2:KuduStorageHandler 出错
我正在尝试使用 PySpark 2.1.0 读取存储为 Kudu 的数据
我在集群上安装了 Kudu 1.2.0。这些是 hive/Impala 表。
当我执行最后一行时,出现以下错误:
我指的是以下资源:
https://spark.apache.org/docs/latest/sql-programming-guide.html#hive-tables
https://github.com/bkvarda/iot_demo/blob/master/total_data_count.py
https://kudu.apache.org/docs/developing.html#_kudu_python_client
我很想知道如何将 Kudu 相关的依赖项包含到我的 pyspark 程序中,以便我可以克服这个错误。
hive - 使用 SparkSQL 读取 Impala 表
我试图执行一个查询,该查询具有诸如lead .. over .. partition 和 Union 之类的功能。当我尝试在 impala 上运行它但在 Hive 上失败时,此查询运行良好。
我需要编写一个执行此查询的 Spark 作业。它在 SparkSQL 中也失败了,我的假设是因为 Spark 1.6 在内部使用 HiveQL 来完成上述任务。
从 SparkSQL 读取 impala 表有什么不同的方法吗?因为在 Hive 中工作的基本查询和两者都可以在 SprkSQL 上正常工作。
FYR 我要运行的查询:
和错误信息:
data-visualization - 如何在 Apache Kudu 中可视化数据?
是否可以在 Apache Kudu 中可视化数据?有什么指导方针吗?
impala - 删除对 Kudu 表的 impala 引用
我有一个 Impala Kudu 设置,其中有下表:
在此之后,我创建了另一个表,但不小心给了它相同的表kude.table_name
我删除了 Impala 中的第二个表,但现在第一个表仍然存在于表列表中,但如果我尝试使用它,我会得到一个表不存在错误。如果我尝试重新创建表,则会收到表已存在错误。
所以 kudu 表impala_tabl
消失了,但 Impala 引用仍然存在于元存储中的某个地方。
我已尝试更改 impala 表以指向另一个 kudu 表名,但我无法更改该表(不存在)。还尝试了REFRESH,但没有成功。
有谁知道我如何删除这个 Impala 参考?
修复:我创建了一个指向同一个 kudu 表的新 Impala 表。然后我将表更改为外部表。之后,我能够删除外部表和我在第一步中创建的表。
sql - 最接近 Apache Kudu 的 Amazon Web Services *native* 产品是什么?
我正在寻找本机产品,例如任何 RDS 解决方案、Elastic Cache、Amazon Redshift,而不是我必须自己托管的东西。
来自 Apache Kudu:https ://kudu.apache.org/:
据我了解,Kudu 是一个用于表格数据的列式分布式存储引擎,它允许快速扫描和临时分析查询,但也允许随机更新和插入。每个表都有一个主键,您可以使用它来查找和更新单个记录...
impala - Impala KUDU 表 - 如何批量更新
我需要更新 KUDU 表,有没有批量更新 du 的选项?
流程如下: 1 .Fetch 1000 行 2. 处理行,为每一行计算新值 3. 用新值更新 KUDU 表
逐行更新,每行一个数据库查询 - 慢。我正在寻求批量更新解决方案。我发现只有这个“您可以使用批量插入中概述的相同方法批量更新。” 在这里https://www.cloudera.com/documentation/kudu/latest/topics/kudu_impala.html#update_bulk但如何解决这个问题?我需要例子,如果可能的话谢谢
apache-spark-sql - Spark结构化流到kudu上下文
我想阅读 kafka 主题,然后通过 spark 流将其写入 kudu 表。
我的第一种方法
现在它抱怨
我的第二种方法
看来我将代码更改为使用传统的 KafkaUtils.createDirectStream
那么,哪种方法是正确的呢?或者有什么办法让它从第一种方法运行?
Spark 版本为 2.2.0。
ddl - Kudu 表列包含创建的时间戳
我们正在尝试创建一个 kudu 表,该表应包含一个列,其中包含插入记录时的时间戳。
我们尝试了以下方法:
但这load_dttm timestamp
始终是创建表的时间,而不是插入记录的时间。
任何方向将不胜感激。提前致谢!
apache-spark - SPARK KUDU 可以直接或通过 Impala JDBC 驱动程序进行复杂更新语句吗?
如果我查看 Imapala Shell 或 Hue,我可以为 KUDU 编写足够复杂的 IMPALA 更新语句。例如用子选择更新什么的。美好的。
查看旧的 JDBC 连接方法,例如通过 SPARK / SCALA 的 mySQL,通过这种连接进行复杂更新的可能性不大,这是可以理解的。但是,有了 KUDU,我认为情况会发生变化。
查看关于 KUDU - Apache KUDU - 使用 Apache KUDU 开发应用程序的文档,以下问题:
- 目前尚不清楚我是否可以通过 IMPALA JDBC 驱动程序从 SPARK / SCALA 环境发出复杂的更新 SQL 语句(由于 KUDU 的安全问题)。
在 SPARK KUDU 原生模式中,DML 似乎与带有 INSERT 和 UPSERT 的数据框方法相关联。如果我只想编写像 UPDATE 这样的自由格式 SQL DML 语句怎么办?我看到我们可以使用 Spark SQL 将(默认视为 UPSERT)插入到 Kudu 表中。例如
/li>- 我对 SPARK SQL INSERT ... 的理解是,KUDU 表也必须是临时表。我不能直接接近它。那么,考虑到这一切,我们如何才能直接在 SPARK 中处理 KUDU 表呢?我们不能在 SPARK / KUDU 中,并且通过 Impala JDBC 连接通过 SPARK SCALA / KUDU 或 SPARK SCALA 到 KUDU 的复杂 UPDATES 语句也不允许这样做。在我注意到的某些情况下,我可以通过带有保存的环境变量的 shell 脚本来做一些事情。