问题标签 [hive]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

20888 问题

0 投票

1 回答

4445 浏览

mysql - 最长匹配前缀

在 MySQL 中将 '12684041234' 匹配到你会做的最长前缀

表nums有一个以num_prefix前缀值命名的列。

我怎样才能在蜂巢中做到这一点？

2010-11-06T07:47:00.087

0 投票

2 回答

2163 浏览

amazon-s3 - 我应该如何对 s3 中的数据进行分区以与 hadoop hive 一起使用？

我有一个 s3 存储桶，其中包含大约 300gb 的日志文件，没有特定的顺序。

我想使用日期时间戳对这些数据进行分区以在 hadoop-hive 中使用，以便与特定日期相关的日志行聚集在同一个 s3 '文件夹'中。例如，1 月 1 日的日志条目将位于与以下命名匹配的文件中：

ETC

什么是我转换数据的最佳方式？我是否最好只运行一个脚本，一次读取每个文件并将数据输出到正确的 s3 位置？

我敢肯定有一个使用hadoop的好方法，有人可以告诉我那是什么吗？

我试过的：

我尝试通过传入一个映射器来使用hadoop-streaming，该映射器收集每个日期的所有日志条目，然后将它们直接写入S3，没有为reducer返回任何内容，但这似乎会产生重复。（使用上面的例子，我在 1 月 1 日得到了 250 万个条目，而不是 140 万个）

有谁知道如何最好地解决这个问题？

amazon-s3 hadoop mapreduce hive

2010-12-15T20:02:03.110

0 投票

2 回答

3412 浏览

java - Hbase和Hive集成有什么好处

最近，我看到一个博客，作者提到了 Hbase 和 Hive 的集成。这是否可能，如果可以，使用两者有什么优势（在性能和可扩展性方面）。如果我错了，请纠正我。

java hbase hive hdfs

2011-01-06T17:31:08.793

0 投票

2 回答

8216 浏览

mysql - 如何将mysql表转移到hive？

我有一个大的 mysql 表，我想将它转移到 Hadoop/Hive 表。是否有标准的命令或技术可以将一个简单（但很大）的表从 Mysql 传输到 Hive？该表主要存储分析数据。

mysql hadoop hive

2011-01-08T05:24:58.153

0 投票

1 回答

483 浏览

mapreduce - Hive QL 是否具有与直接在 Hadoop 上编写自己的 MapReduce 作业相同的表达能力？

换句话说，

是否存在可以通过直接定义 map reduce 作业来解决的问题，但您无法形成 Hive QL 查询？

如果是，则意味着 Hive QL 的表达能力有限，无法表达所有可能的 map reduce 作业。

实际上，这意味着 Hive QL 不能完全替代定义您自己的 Map Reduce 作业。

mapreduce cascading hive

2011-01-28T00:28:50.880

0 投票

1 回答

10130 浏览

configuration - 在 Hive 中为 INSERT OVERWRITE SELECT 指定压缩编解码器

我有一个蜂巢表

为了填充，我正在做类似的事情：

这将使用通过 deflate 压缩的单个产品构建一个新分区，但这里的理想情况是通过 LZO 压缩编解码器。

不幸的是，我不确定如何实现这一点，但我认为它是众多运行时设置之一，或者可能只是 CREATE TABLE DDL 中的附加行。

configuration compression hadoop hive

2011-01-28T17:26:40.080

0 投票

4 回答

1277 浏览

lucene - Hive 与 Lucene

是否可以使用 Hive 查询分布在 Hadoop 上的 Lucene 索引？？？

lucene hadoop hive

2011-01-31T07:01:07.117

0 投票

1 回答

5154 浏览

configuration - 能够限制hadoop hive mapred作业的最大reducer吗？

我试过在我的查询前加上：

和

最后一个将 530 个减速器减至 35 个的工作被判入狱……这让我认为它会尝试将 530 个减速器的工作量提高到 35 个。

现在给

尝试查看该数字是否是每个节点的某种最大值（以前在具有 70 个潜在减速器的集群上为 7）。

更新：

没有效果，不过值得一试。

configuration hadoop hive

2011-02-07T17:54:45.630

0 投票

1 回答

660 浏览

hadoop - PIG 和 HIVE 可以称为单独的编程模型吗？

这个问题可能听起来很烦人，实际上可能与真正的编程没有任何关系。这是我与一位同事进行的一场小型辩论的衍生产品。他一直坚持认为 HIVE 和 PIG 可以被称为独立的“编程模型”，因为当你在这些中编写 MapReduce 作业时，你真的不需要在 MapReduce 中思考——特别是如果你在 HIVE 中编程。从程序员的角度来看，MapReduce 部分是完全抽象的。它完全类似于 SQL。

但我有点不同意，因为用这些语言编写的脚本最终会转换为多个 mapreduce 作业。因此，这些可以称为更高级别的编程语言来为相同的模型进行编程。并且应该从等待处理的底层数据的角度来看待编程模型这个词，而不是程序员。

你怎么看？

hadoop apache-pig hive

2011-02-11T17:23:13.047

0 投票

2 回答

2894 浏览

performance - Hive、hadoop 和 hive.exec.reducers.max 背后的机制

在这个其他问题的上下文中

使用 hive.exec.reducers.max 指令真的让我感到困惑。

从我的角度来看，我认为 hive 处理某种逻辑，例如，我在所需的查询中有 N 个块，所以我需要 N 个映射。从 NI 将需要一些合理的 reducer R 范围，它可以是从 R = N / 2 到 R = 1 的任何位置。对于我正在处理的 hive 报告，有 1200 多张地图，并且没有任何影响 hive 制定了大约 400 的计划减速器很好，除了我正在处理一个总共只有 70 个减速器的集群。即使使用公平的作业调度程序，这也会导致积压，从而挂起其他作业。所以我尝试了很多不同的实验，直到找到 hive.exec.reducers.max 并将其设置为 60 左右。

结果是，一个耗时 248 分钟的 Hive 作业在 155 分钟内完成，结果没有任何变化。困扰我的是，为什么不将 hive 默认设置为 N 永远不会大于集群减速器的容量，并且看到我可以使用减少的减速器集翻转数 TB 的数据，然后 hive 认为是正确的，总是尝试更好吗并调整这个计数？

performance hadoop hive

2011-02-17T06:30:03.987

1 2 3 4 5 6 7 8 9 10

问题标签 [hive]

Reference