问题标签 [apache-kudu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
706 浏览

apache-kudu - Can I add more than 300 columns in Apache Kudu?

I have been asked to create a Kudu table.

I know that Kudu is a columnar storage, but now my company's database table has like 285 columns which can fit in the the Kudu table, but is it possible to dynamically add columns in excess of the 300 column limit in a Kudu table? If so, how?

0 投票
0 回答
2314 浏览

kerberos - 用于 spark2 作业的 Kudu 中的 kerberos 身份验证

我正在尝试将一些数据放入 kudu 中,但工作人员找不到 kerberos 令牌,因此我无法将一些数据放入 kudu 数据库中。

在这里你可以看到我的 spark2-submit 声明

例外情况如下:

看来 kudu 客户端没有找到 keytab 文件。在他们提到的 kudu 文档中,您只需要指定keytabprincipal参数。

如果您在驱动程序中的 KuduClient 上执行 openTable,则一切正常。

0 投票
0 回答
151 浏览

apache-kudu - Zeppelin\jupyter Notebook for KUDU

我们正在尝试通过 impala 将 Zeppelin Notebook 连接到 KUDU。

我们没有找到任何现有的 KUDU 口译员,此外我们还试图找到 impala 口译员。

任何帮助,将不胜感激

罗尼

0 投票
1 回答
1144 浏览

impala - 无法使用 impala-shell 在 kudu 中创建表

我在研究 hadoop、hive、impala 和 kudu。安装了 HADOOP、HIVE、IMPALA 和 KUDU 服务器。

我已经在 /etc/default -> impala 文件中配置了 --kudu_master_hosts=:。即如下所示:

============== 之后重新启动服务器。然后使用 Kudu JAVA 客户端,我能够在 kudu 中创建表并能够插入一些记录。

然后通过执行以下操作在 impala 中映射同一个表:

成功地能够访问 impala 中的 kudu 表并能够看到所有记录。现在我正在尝试使用 impala-shell 在 KUDU 中创建一个表。

但这给出了一个错误,即:

任何人都可以向我解释发生了什么或此错误的解决方案是什么。

通读 KUDU 文档,但没有得到任何想法。

问候, 阿克谢

0 投票
1 回答
887 浏览

apache-kudu - 无法启动 Kudu 大师

在启动 kudu-master 时,我收到以下错误并且无法启动 kudu 集群。

F0706 10:21:33.464331 27576 master_main.cc:71] 检查失败:_s.ok() 错误状态:无效参数:无法初始化目录管理器:无法异步初始化 sys 表:磁盘主列表(hadoop-master: 7051、slave2:7051、slave3:7051) 和提供的主列表 (:0) 不同。它们的对称区别是:0,hadoop-master:7051,slave2:7051,slave3:7051

它是一个由 8 个节点组成的集群,我在主节点上的 master.gflagfile 中提供了 3 个主节点,如下所示。

0 投票
1 回答
49 浏览

analytics - 对可以修改的分析柱状数据库有什么建议吗?

我需要建立一个客户 360 度数据库,它需要:

  • 一个宽列表,每个客户是一行,有很多列(说> 1000)
  • 我们每天运行约 20 个批量更新分析作业。每个分析作业查询并更新一小组列,用于所有行。它包括聚合用于报告的数据,以及为机器学习算法加载/保存数据。
  • 我们在几列中更新客户的信息,每天 <= 100 万行。更新工作量分布在工作时间。我们有超过 2 亿行。

对于这些要求,我认为可修改的列式数据库将是一个完美的选择:它可以按最适合分析的列进行查询和聚合,它可以全天更新数百万次更改。我发现的最相似的项目是 Apache Kudu,但它的 300 列限制是一个很大的障碍,我们有 1000 多个。

我们更喜欢开源项目。

有什么建议么 ?

0 投票
2 回答
2016 浏览

impala - NonRecoverableException:没有足够的活动平板电脑服务器来创建具有请求的复制因子 3 的表。1 个平板电脑服务器处于活动状态

我正在尝试使用Impala-shell创建一个Kudu 表

查询

但我收到错误:

请建议应该为此做些什么。我是 Kudu 的新手。

**

0 投票
1 回答
595 浏览

apache-spark - 如何使用 Spark 流将数据从 Kafka 插入到 Kudu

我有一个监听 Kafka 主题的 Spark 流应用程序。获取数据时,我需要对其进行处理并发送到 Kudu。目前我正在使用org.apache.kudu.spark.kudu.KuduContext API数据框并调用插入操作。为了从我的数据创建数据框,我需要调用collect()以便可以使用 sqlContext 创建数据框。

有没有办法在不调用的情况下创建数据框/将数据插入 Kudu,collect()这当然是昂贵的?

我们正在使用 Spark 1.6

0 投票
2 回答
1932 浏览

performance - Apache Kudu 插入速度慢,排队时间长

我一直使用 Spark Data Source 从 Parquet 写入 Kudu,写入性能很糟糕:大约 12000 行 / 秒。每行大约 160 个字节。

我们有 7 个 kudu 节点,24 个核心 + 每个 64 GB RAM + 每个 12 个 SATA 磁盘。资源似乎都不是瓶颈:tserver cpu 使用 ~3-4 核,RAM 10G,没有磁盘拥塞。

我仍然看到大部分时间写入请求都停留在排队中。任何想法表示赞赏。

0 投票
1 回答
1709 浏览

java - 如何测试从数据库读取并写入文件的弹簧批处理步骤?

我想知道在 Spring Batch 作业中测试以下场景的最佳方法是什么:

  • 包含两个步骤的作业:

1) 第一步使用ItemReader( from apache kudu using impala) 从数据库中读取数据并将查询生成的内容写入文件。

  • itemReader有一个rowMapper从结果集中创建一个复杂对象的方法。它itemWriter只是制作了一个toString (which in fact is a JSON representation)复杂的对象。

2)第二步从生成的文件中读取step 1并处理。处理完所有文件后,所有内容都写入一个新文件。

  • 使用aitemReader读取文件,然后处理从映射器生成的新复杂对象并将它们写入新文件。step 1jsonLineMapper

然后作业的侦听器将这两个文件上传到 S3。

我需要这个工作流程,因为第一步会生成第二步所需的样本。如果有一天我只需要测试第二步,我可以使用第一步中的旧样本,因为数据库会随着时间而变化,如果没有它,我可能无法生成两天前执行的相同样本。

第一步是最难测试的,但我想以如下方式测试这两个步骤:

1)step 1我需要检查查询语法是否正确。另外,检查从数据库结果集中它是否通过rowMapper. 文件的内容itemWriter是正确的(correct means that is expected)

2)第二步更容易测试,因为我可以从预定义的文件开始。它应该测试使用从文件读取jsonLineMapper是否正确完成。处理部分是分开测试的,但我可以遵循一个简单的工作流程,最终文件具有预期的内容。

我测试该场景的想法是:

1)为了检查查询语法是否正确,我需要一个查询构建器(我用谷歌搜索并找到了类似的库,jOOQ但我不想添加外部库只是为了构建字符串查询)。在检查查询是否正确之后,也许我应该mock数据库并返回一个预定义的复杂对象并将其写入文件。问题是,如果查询返回缺少的列,则该对象将不正确,并且测试应该失败,所以如果我返回一个预定义的对象,我将永远不知道哪个是查询返回。

正如您在此处看到的那样,问题出现在验证查询中,就好像查询是正确的一样,我可以测试rowMapper最终文件。

2) 对于这一步,我认为最好的方法是拥有一个包含正确内容的预定义文件,step 1然后检查最终文件内容是否符合我的预期。我认为这一步很容易测试。

测试这种情况的任何更好的方法或方法?

谢谢!