问题标签 [apache-kudu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bigdata - 当我使用 CTAS(创建表为)时,Apache Kudu TServer 出现故障,因此我的插入失败
我有一个 Cloudera Impala 表格(Parquet 格式)的情况,
表统计数据为:
大小: 23GB行:67M 行大小:约 5KB 列:308
我的 Cloudera 共有 6 个节点 Cloudera 集群(磁盘:每个 84TB,内存:每个 251GB)
Kudu Master 和 Tablet Server 2 个 Master 节点,5 个 Tablet Server(一个节点充当 Tablet Server 和 Master)
这是我的表架构(结构)
测试了不同的属性
记录已插入,但有时会出现此错误
报告 Kudu 错误,第一个错误:超时:在 329 次尝试后,无法将 94 个操作批量写入平板电脑 842e935e768f4a419b193e1fb18e3155:无法写入服务器:2d35eb2445e747bea574a5e1af6e0b2a (bda-ptcl15node02.ptcl.net)。 : 写 RPC 到 192.168.228.2:7050 在 179.996s (SENT) 后超时
我需要插入大约 102M 记录的其他表,我无法理解如何针对我的集群调整 Kudu 属性。
PS 进入 Kudu 表的最多记录是 13M,具有以下属性,然后发生超时。
请帮忙!!
cloudera - Cloudera 将基于镶木地板的黑斑羚迁移到基于 kudu 的黑斑羚的最佳实践是什么
我们使用 Cloudera 作为我们的 hadoop 环境。
有人可以就如何将现有的 parquet/impala 集成或迁移到 kudu/impala 提供任何指导,以希望对我们现有的管道进行性能改进?
我们现有的管道在这里简要介绍:
我们以 csv/xlsx 格式接收数据;
我们将它们移到 HDFS 上;
我们以镶木地板的形式将它们保存到另一个位置;
我们在 impala 中创建外部表,其位置指向分区 parquet 数据;
我们在 pyspark、spark scala、spark sql 中完成 ETL 工作;
我们将分析结果输出到 csv。
现有管道按预期工作,但是,随着数据保持持续增长,管道所需的时间/资源也会增加。
我们想知道将基于 parquet 的 impala 迁移到基于 kudu 的 impala 以获得更好的整体性能的最佳实践是什么?
非常感谢。
apache-kudu - 我如何测量 kudu,s 桌子的大小?
我开始使用 kudu,在 kudu 中测量表格大小的唯一方法是抛出 Cloudera Manager - KUDU - Chart Library - Total Tablet Size On Disk Across Kudu 副本。还有另一种方法可以知道它抛出命令行吗?
apache-kudu - 如何使用 Apache Kudu 获取一系列行(例如第 1000~2000 行)?
我正在使用 Apache Kudu 进行学习,但是如何获得特定范围的行?例如,我想获取第 1000 到第 2000 行。
我发现了一些关于与键绑定的搜索的客户端 API:
但是,他们使用key
列边界来过滤行,他们不使用行范围来专门选择行。虽然我可以做一些扫描以添加到第 1000 和第 2000 行,但下次我想要第 1500 到第 3000 行时,我必须再次扫描,这似乎不是一个好的解决方案。
那我该如何解决呢,谢谢:)
kerberos - NIFI - 如何连接到启用 Kerberos 的 KUDU
如何从 NIFI 连接到启用 Kerberos 的 Kudu?
我只看到一个处理器可以访问 Kudu -PutKUDU
而且它不支持 Kerberos。我没有在网上看到任何关于使用 Kerberos 连接到 Kudu 的讨论。我错过了什么吗?
谢谢!
java - 要安装 kudu,我们需要安装 java 吗?
要安装 Apache kudu,我们需要 java 作为先决条件吗?我打算在单独的 VM 中安装 kudu 什么是所有先决条件
hadoop - 配置 Nutch 以写入 Apache Kudu
我正在尝试将 Apache Nutch 配置为写入 Apache Kudu,但我找不到任何有关如何执行此操作的信息。我知道我可以写信给 Cassandra 和 HBase,但是 Kudu 什么都没有。
我使用的 Hadoop 发行版是 CDH 5.16.1
如何配置 Apache Nucth 以写入 Apache Kudu?
impala - 通过datastage插入表KUDU
我写信询问我的过程中的一个问题:
我有一个 Kudu 表,当我尝试使用 Impala JDBC 驱动程序通过 datastage(11.5 或 11.7)插入一个大小大于 500 个字符的新行时,我收到此错误:
致命错误:连接器未能执行语句:INSERT INTO default.tmp_consulta_teste(idconsulta,idcliente,idinstituicao,idunidadeinst,datahoraconsulta,desccpfcnpj,idcentral,idcontrato,idusuario,valorconsulta,descretornoxml,idintegracaosistema,nomeservidor)值(?,?, , ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)。报告的错误是:[SQLSTATE HY000] java.sql.SQLException: [Cloudera]ImpalaJDBCDriver Error getting the parameter data type: HIVE_PARAMETER_QUERY_DATA_TYPE_ERR_NON_SUPPORT_DATA_TYPE。
**************我该如何解决?我需要加载该信息。**********
apache-kudu - 使用部分主键来改进 KUDU 中的搜索
我有一个由三列(id_grandparent、id_parent、id_row)组成的主键,它位于 KUDU 中。
当通过 id_grandparent 查找时,我希望我的查找速度很快(类似于 hbase)。我正在使用 Impala 和 Spark 进行查找,假设它们都对相等性进行谓词下推。
我有一些问题无法通过阅读文档 100% 确定
即使我没有提供整个主键,这个查询是否能够使用索引顺序?(又名返回超快)。我假设是的,因为我猜主键是按第一列排序的,它是某种前缀扫描
此查询是否能够使用任何类型的优化?或者任何非第一列(如果未提供第一列)将强制对所有平板电脑进行全面扫描。
我在这里读过这个:https ://kudu.apache.org/2018/09/26/index-skip-scan-optimization-in-kudu.html但我不确定它是否已经发布
预先感谢!