问题标签 [hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4445 浏览

mysql - 最长匹配前缀

在 MySQL 中将 '12684041234' 匹配到你会做的最长前缀

nums有一个以num_prefix前缀值命名的列。

我怎样才能在蜂巢中做到这一点?

0 投票
2 回答
2163 浏览

amazon-s3 - 我应该如何对 s3 中的数据进行分区以与 hadoop hive 一起使用?

我有一个 s3 存储桶,其中包含大约 300gb 的日志文件,没有特定的顺序。

我想使用日期时间戳对这些数据进行分区以在 hadoop-hive 中使用,以便与特定日期相关的日志行聚集在同一个 s3 '文件夹'中。例如,1 月 1 日的日志条目将位于与以下命名匹配的文件中:

ETC

什么是我转换数据的最佳方式?我是否最好只运行一个脚本,一次读取每个文件并将数据输出到正确的 s3 位置?

我敢肯定有一个使用hadoop的好方法,有人可以告诉我那是什么吗?

我试过的:

我尝试通过传入一个映射器来使用hadoop-streaming,该映射器收集每个日期的所有日志条目,然后将它们直接写入S3,没有为reducer返回任何内容,但这似乎会产生重复。(使用上面的例子,我在 1 月 1 日得到了 250 万个条目,而不是 140 万个)

有谁知道如何最好地解决这个问题?

0 投票
2 回答
3412 浏览

java - Hbase和Hive集成有什么好处

最近,我看到一个博客,作者提到了 Hbase 和 Hive 的集成。这是否可能,如果可以,使用两者有什么优势(在性能和可扩展性方面)。如果我错了,请纠正我。

0 投票
2 回答
8216 浏览

mysql - 如何将mysql表转移到hive?

我有一个大的 mysql 表,我想将它转移到 Hadoop/Hive 表。是否有标准的命令或技术可以将一个简单(但很大)的表从 Mysql 传输到 Hive?该表主要存储分析数据。

0 投票
1 回答
483 浏览

mapreduce - Hive QL 是否具有与直接在 Hadoop 上编写自己的 MapReduce 作业相同的表达能力?

换句话说,

是否存在可以通过直接定义 map reduce 作业来解决的问题,但您无法形成 Hive QL 查询?

如果是,则意味着 Hive QL 的表达能力有限,无法表达所有可能的 map reduce 作业。

实际上,这意味着 Hive QL 不能完全替代定义您自己的 Map Reduce 作业。

0 投票
1 回答
10130 浏览

configuration - 在 Hive 中为 INSERT OVERWRITE SELECT 指定压缩编解码器

我有一个蜂巢表

为了填充,我正在做类似的事情:

这将使用通过 deflate 压缩的单个产品构建一个新分区,但这里的理想情况是通过 LZO 压缩编解码器。

不幸的是,我不确定如何实现这一点,但我认为它是众多运行时设置之一,或者可能只是 CREATE TABLE DDL 中的附加行。

0 投票
4 回答
1277 浏览

lucene - Hive 与 Lucene

是否可以使用 Hive 查询分布在 Hadoop 上的 Lucene 索引???

0 投票
1 回答
5154 浏览

configuration - 能够限制hadoop hive mapred作业的最大reducer吗?

我试过在我的查询前加上:

最后一个将 530 个减速器减至 35 个的工作被判入狱……这让我认为它会尝试将 530 个减速器的工作量提高到 35 个。

现在给

尝试查看该数字是否是每个节点的某种最大值(以前在具有 70 个潜在减速器的集群上为 7)。

更新:

没有效果,不过值得一试。

0 投票
1 回答
660 浏览

hadoop - PIG 和 HIVE 可以称为单独的编程模型吗?

这个问题可能听起来很烦人,实际上可能与真正的编程没有任何关系。这是我与一位同事进行的一场小型辩论的衍生产品。他一直坚持认为 HIVE 和 PIG 可以被称为独立的“编程模型”,因为当你在这些中编写 MapReduce 作业时,你真的不需要在 MapReduce 中思考——特别是如果你在 HIVE 中编程。从程序员的角度来看,MapReduce 部分是完全抽象的。它完全类似于 SQL。

但我有点不同意,因为用这些语言编写的脚本最终会转换为多个 mapreduce 作业。因此,这些可以称为更高级别的编程语言来为相同的模型进行编程。并且应该从等待处理的底层数据的角度来看待编程模型这个词,而不是程序员。

你怎么看?

0 投票
2 回答
2894 浏览

performance - Hive、hadoop 和 hive.exec.reducers.max 背后的机制

在这个其他问题的上下文

使用 hive.exec.reducers.max 指令真的让我感到困惑。

从我的角度来看,我认为 hive 处理某种逻辑,例如,我在所需的查询中有 N 个块,所以我需要 N 个映射。从 NI 将需要一些合理的 reducer R 范围,它可以是从 R = N / 2 到 R = 1 的任何位置。对于我正在处理的 hive 报告,有 1200 多张地图,并且没有任何影响 hive 制定了大约 400 的计划减速器很好,除了我正在处理一个总共只有 70 个减速器的集群。即使使用公平的作业调度程序,这也会导致积压,从而挂起其他作业。所以我尝试了很多不同的实验,直到找到 hive.exec.reducers.max 并将其设置为 60 左右。

结果是,一个耗时 248 分钟的 Hive 作业在 155 分钟内完成,结果没有任何变化。困扰我的是,为什么不将 hive 默认设置为 N 永远不会大于集群减速器的容量,并且看到我可以使用减少的减速器集翻转数 TB 的数据,然后 hive 认为是正确的,总是尝试更好吗并调整这个计数?