问题标签 [apache-kudu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
273 浏览

bigdata - 当我使用 CTAS(创建表为)时,Apache Kudu TServer 出现故障,因此我的插入失败

我有一个 Cloudera Impala 表格(Parquet 格式)的情况,

表统计数据为:

大小23GB:67M 行大小:约 5KB :308

我的 Cloudera 共有 6 个节点 Cloudera 集群(磁盘:每个 84TB,内存:每个 251GB)

Kudu Master 和 Tablet Server 2 个 Master 节点,5 个 Tablet Server(一个节点充当 Tablet Server 和 Master)

这是我的表架构(结构)

测试了不同的属性

记录已插入,但有时会出现此错误

报告 Kudu 错误,第一个错误:超时:在 329 次尝试后,无法将 94 个操作批量写入平板电脑 842e935e768f4a419b193e1fb18e3155:无法写入服务器:2d35eb2445e747bea574a5e1af6e0b2a (bda-ptcl15node02.ptcl.net)。 : 写 RPC 到 192.168.228.2:7050 在 179.996s (SENT) 后超时

我需要插入大约 102M 记录的其他表,我无法理解如何针对我的集群调整 Kudu 属性。

PS 进入 Kudu 表的最多记录是 13M,具有以下属性,然后发生超时。

请帮忙!!

0 投票
1 回答
49 浏览

scala - Kudu Import 上的 GeoMesa 出现空间数据错误

我使用教程中给出的示例对我的数据进行操作,但是将数据导入 Kudu 后,发现最后一个字段不是 Geometry 类型。你能告诉我如何解决这个问题吗?

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

0 投票
0 回答
339 浏览

cloudera - Cloudera 将基于镶木地板的黑斑羚迁移到基于 kudu 的黑斑羚的最佳实践是什么

我们使用 Cloudera 作为我们的 hadoop 环境。

有人可以就如何将现有的 parquet/impala 集成或迁移到 kudu/impala 提供任何指导,以希望对我们现有的管道进行性能改进?

我们现有的管道在这里简要介绍:

我们以 csv/xlsx 格式接收数据;

  • 我们将它们移到 HDFS 上;

  • 我们以镶木地板的形式将它们保存到另一个位置;

  • 我们在 impala 中创建外部表,其位置指向分区 parquet 数据;

  • 我们在 pyspark、spark scala、spark sql 中完成 ETL 工作;

  • 我们将分析结果输出到 csv。

现有管道按预期工作,但是,随着数据保持持续增长,管道所需的时间/资源也会增加。

我们想知道将基于 parquet 的 impala 迁移到基于 kudu 的 impala 以获得更好的整体性能的最佳实践是什么?

非常感谢。

0 投票
2 回答
1484 浏览

apache-kudu - 我如何测量 kudu,s 桌子的大小?

我开始使用 kudu,在 kudu 中测量表格大小的唯一方法是抛出 Cloudera Manager - KUDU - Chart Library - Total Tablet Size On Disk Across Kudu 副本。还有另一种方法可以知道它抛出命令行吗?

0 投票
0 回答
29 浏览

apache-kudu - 如何使用 Apache Kudu 获取一系列行(例如第 1000~2000 行)?

我正在使用 Apache Kudu 进行学习,但是如何获得特定范围的行?例如,我想获取第 1000 到第 2000 行。

我发现了一些关于与键绑定的搜索的客户端 API:

但是,他们使用key列边界来过滤行,他们不使用行范围来专门选择行。虽然我可以做一些扫描以添加到第 1000 和第 2000 行,但下次我想要第 1500 到第 3000 行时,我必须再次扫描,这似乎不是一个好的解决方案。

那我该如何解决呢,谢谢:)

0 投票
1 回答
211 浏览

kerberos - NIFI - 如何连接到启用 Kerberos 的 KUDU

如何从 NIFI 连接到启用 Kerberos 的 Kudu?

我只看到一个处理器可以访问 Kudu -PutKUDU而且它不支持 Kerberos。我没有在网上看到任何关于使用 Kerberos 连接到 Kudu 的讨论。我错过了什么吗?

谢谢!

0 投票
1 回答
102 浏览

java - 要安装 kudu,我们需要安装 java 吗?

要安装 Apache kudu,我们需要 java 作为先决条件吗?我打算在单独的 VM 中安装 kudu 什么是所有先决条件

0 投票
1 回答
28 浏览

hadoop - 配置 Nutch 以写入 Apache Kudu

我正在尝试将 Apache Nutch 配置为写入 Apache Kudu,但我找不到任何有关如何执行此操作的信息。我知道我可以写信给 Cassandra 和 HBase,但是 Kudu 什么都没有。

我使用的 Hadoop 发行版是 CDH 5.16.1

如何配置 Apache Nucth 以写入 Apache Kudu?

0 投票
1 回答
613 浏览

impala - 通过datastage插入表KUDU

我写信询问我的过程中的一个问题:

我有一个 Kudu 表,当我尝试使用 Impala JDBC 驱动程序通过 datastage(11.5 或 11.7)插入一个大小大于 500 个字符的新行时,我收到此错误:

致命错误:连接器未能执行语句:INSERT INTO default.tmp_consulta_teste(idconsulta,idcliente,idinstituicao,idunidadeinst,datahoraconsulta,desccpfcnpj,idcentral,idcontrato,idusuario,valorconsulta,descretornoxml,idintegracaosistema,nomeservidor)值(?,?, , ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)。报告的错误是:[SQLSTATE HY000] java.sql.SQLException: [Cloudera]ImpalaJDBCDriver Error getting the parameter data type: HIVE_PARAMETER_QUERY_DATA_TYPE_ERR_NON_SUPPORT_DATA_TYPE。

**************我该如何解决?我需要加载该信息。**********

0 投票
1 回答
397 浏览

apache-kudu - 使用部分主键来改进 KUDU 中的搜索

我有一个由三列(id_grandparent、id_parent、id_row)组成的主键,它位于 KUD​​U 中。

当通过 id_grandparent 查找时,我希望我的查找速度很快(类似于 hbase)。我正在使用 Impala 和 Spark 进行查找,假设它们都对相等性进行谓词下推。

我有一些问题无法通过阅读文档 100% 确定

即使我没有提供整个主键,这个查询是否能够使用索引顺序?(又名返回超快)。我假设是的,因为我猜主键是按第一列排序的,它是某种前缀扫描

此查询是否能够使用任何类型的优化?或者任何非第一列(如果未提供第一列)将强制对所有平板电脑进行全面扫描。

我在这里读过这个:https ://kudu.apache.org/2018/09/26/index-skip-scan-optimization-in-kudu.html但我不确定它是否已经发布

预先感谢!