问题标签 [apache-kudu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2520 浏览

apache-kudu - Kudu 自动生成的键列

我正在尝试在 Kudu 中制作自定义的自动生成/增量密钥,这将不断增加其值 - 从默认情况下为零的起始种子开始。

遍历所有记录并增加计数器以获取行数是非常低效的。

Kudu 是否提供开箱即用的行数?如果没有,获得它的最佳方法是什么?

0 投票
1 回答
586 浏览

impala - 错误:AnalysisException:必须使用 DISTRIBUTE BY 子句指定数据分布

在遵循http://kudu.apache.org/docs/quickstart.html上的 kudu 快速入门时, 我遇到了错误“错误:AnalysisException:必须使用 DISTRIBUTE BY 子句指定数据分布。” 在尝试从impala 表passenger_data_raw 创建kudu 表passenger_data 时。

系统规格 1. Macbook 2011 2. OS El-Capitan 3. 按照快速入门指南的指示为 kudu 下载 CDH VM。4. kudu 0.9.0 (rev 5f2bf643d8ce3d042aa3903543a92841077a6874) uuid ca7e69c27e064aac8fa64db53cad71e5

有人可以帮忙吗。

0 投票
1 回答
139 浏览

hbase - 是否有任何用于更新和删除查询的好的大数据存储?

我使用 hive 和 hbase 作为后端存储。Hive 非常适合存储原始数据。但是如果你想要好的性能,你不能运行更新和删除查询。目前我在 hbase 上使用 phoenix。它给了我良好的性能和 sql 查询语法支持。但是,虽然将数据带入 hbase 并非易事。是否有任何其他大数据存储将提供删除和更新支持,如 impala 或 kudu。我对黑斑羚了解不多。

0 投票
1 回答
1723 浏览

apache - Cannot connect Impala-Kudu to Apache Kudu (without Cloudera Manager): Get TTransportException Error

I have successfully installed kudu on Ubuntu (Trusty) as per the official kudu documentations (see http://kudu.apache.org/docs/installation.html ). The setup has one node running master and tablet server and another node running the tablet server only. I am having issues installing impala-kudu without Cloudera Manager on the node running kudu master. I have followed CDH installation instructions on this (see http://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_cdh5_install.html ) page until Step 3. I have avoided installing CDH with YARN and MRv1 as I don’t need to run any mapreduce jobs and will not be using hadoop. Impala-kudu and impala-kudu-shell installed without errors. When I launch the impala-shell it returns:

I have tried to use the CONNECT option to connect to the kudu-master node without success. Both imapala-kudu and kudu are running on the same machine. Are there additional configuration settings which need to be changed or is hadoop and YARN a strict requirement to make impala-kudu work?

After running ps -ef | grep -i impalad I can confirm the impala daemon is not running. After navigating to the impala logs at ~/var/log/impala I find a few errors and warning files. Here is the output of impalad.ERROR:

Maybe I need to revisit HDFS and the Hive Metastore to ensure I have these services configured properly?

0 投票
1 回答
1730 浏览

time-series - Apache Kudu vs InfluxDB 用于快速分析的时间序列数据

对于需要快速分析的物联网传感器数据(例如机器人技术),Apache Kudu 与 InfluxDB 相比如何?

Kudu 最近发布了 v1.0 关于 Kudu 如何处理以下问题我有几个具体的问题:

  1. 分片?
  2. 数据保留策略(将数据保留指定数量的数据点或时间,然后聚合/丢弃数据)?
  3. 是否有汇总/聚合功能(例如将 1 秒间隔数据转换为 1 分钟间隔数据)?
  4. 是否支持连续查询(即数据的物化视图 - 查询以持续查看 60 秒)?
  5. 数据在磁盘和内存之间是如何存储的?
  6. 可以从不规则的时间序列中得出规则的时间序列(将不规则的事件数据转换为规则的时间间隔)吗?

Kudu 和 InfluxDB 之间还有其他明显的优势和/或劣势吗?

0 投票
1 回答
167 浏览

cloudera - 如何计算现有 kudu 表实际使用的存储量

我想计算一下现有的 kudu 表实际上有多大(以 GB 为单位)。有人知道怎么做这个吗 ?

0 投票
1 回答
274 浏览

hadoop - 长期滚动窗口聚合 - 时间序列 kudu vs influxdb vs opentsdb

我希望对大量客户交易数据进行一些分析。我们有数以百万计的交易事件进来,并为各种实体提供了一些数量和时间戳值;

我想在日、周级别和滑动窗口保持一系列聚合,例如过去 28 周交易qty的项目总和。i87

似乎有很多选择,包括像 InfluxDB 或 OpenTSDB 这样的时间序列数据库。然而,其中大多数似乎都针对聚合周期较短的指标和监控。这样的系统将如何应对小型和大型滚动窗口?

0 投票
1 回答
929 浏览

apache-kudu - 使用 kudu 扫描器过滤 kudu 中的特定行

目标表kudu很大。我有以下内容,scala我想检查该行是否存在于kudu. 这四列是表中的主键,kudu但是当我定义一个上限时,我似乎得到了所有的行。

如何在 中选择特定行kudu?在这里,我希望只返回一行。

0 投票
1 回答
504 浏览

macos - 在我的 Mac(Mac Os Sierra 10.12.1)上安装 Apache Kudu 无法在“thirdparty/build-if-necessary.sh”期间编译

当我尝试安装 Apache Kudu 时,我收到此错误。我找不到任何信息来解决这个问题,我能找到的唯一一个说安装 Xcode 后问题解决了,但我已经安装了 Xcode。

如果有人可以帮助我,那就太好了,非常感谢。

0 投票
1 回答
1250 浏览

apache-kudu - Apache Kudu 用于 WAL 的磁盘空间过多

我有一个hive table2.7 MB(以镶木地板格式存储)。当我impala-shell将此配置单元表转换为 时kudu,我注意到/tserver/文件夹大小增加了大约 300 MB。在进一步探索后,我发现它是/tserver/wals/占据大部分增长的文件夹。因此,我面临着严重的问题。如果一个 2.7 MB 的文件生成一个 300 MB 的 WAL,那么我就无法真正处理更大的数据。有针对这个的解决方法吗?

我的kudu版本是1.1.0,黑斑羚是2.7.0