问题标签 [hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - 最长匹配前缀
在 MySQL 中将 '12684041234' 匹配到你会做的最长前缀
表nums
有一个以num_prefix
前缀值命名的列。
我怎样才能在蜂巢中做到这一点?
amazon-s3 - 我应该如何对 s3 中的数据进行分区以与 hadoop hive 一起使用?
我有一个 s3 存储桶,其中包含大约 300gb 的日志文件,没有特定的顺序。
我想使用日期时间戳对这些数据进行分区以在 hadoop-hive 中使用,以便与特定日期相关的日志行聚集在同一个 s3 '文件夹'中。例如,1 月 1 日的日志条目将位于与以下命名匹配的文件中:
ETC
什么是我转换数据的最佳方式?我是否最好只运行一个脚本,一次读取每个文件并将数据输出到正确的 s3 位置?
我敢肯定有一个使用hadoop的好方法,有人可以告诉我那是什么吗?
我试过的:
我尝试通过传入一个映射器来使用hadoop-streaming,该映射器收集每个日期的所有日志条目,然后将它们直接写入S3,没有为reducer返回任何内容,但这似乎会产生重复。(使用上面的例子,我在 1 月 1 日得到了 250 万个条目,而不是 140 万个)
有谁知道如何最好地解决这个问题?
java - Hbase和Hive集成有什么好处
最近,我看到一个博客,作者提到了 Hbase 和 Hive 的集成。这是否可能,如果可以,使用两者有什么优势(在性能和可扩展性方面)。如果我错了,请纠正我。
mysql - 如何将mysql表转移到hive?
我有一个大的 mysql 表,我想将它转移到 Hadoop/Hive 表。是否有标准的命令或技术可以将一个简单(但很大)的表从 Mysql 传输到 Hive?该表主要存储分析数据。
mapreduce - Hive QL 是否具有与直接在 Hadoop 上编写自己的 MapReduce 作业相同的表达能力?
换句话说,
是否存在可以通过直接定义 map reduce 作业来解决的问题,但您无法形成 Hive QL 查询?
如果是,则意味着 Hive QL 的表达能力有限,无法表达所有可能的 map reduce 作业。
实际上,这意味着 Hive QL 不能完全替代定义您自己的 Map Reduce 作业。
configuration - 在 Hive 中为 INSERT OVERWRITE SELECT 指定压缩编解码器
我有一个蜂巢表
为了填充,我正在做类似的事情:
这将使用通过 deflate 压缩的单个产品构建一个新分区,但这里的理想情况是通过 LZO 压缩编解码器。
不幸的是,我不确定如何实现这一点,但我认为它是众多运行时设置之一,或者可能只是 CREATE TABLE DDL 中的附加行。
lucene - Hive 与 Lucene
是否可以使用 Hive 查询分布在 Hadoop 上的 Lucene 索引???
configuration - 能够限制hadoop hive mapred作业的最大reducer吗?
我试过在我的查询前加上:
和
最后一个将 530 个减速器减至 35 个的工作被判入狱……这让我认为它会尝试将 530 个减速器的工作量提高到 35 个。
现在给
尝试查看该数字是否是每个节点的某种最大值(以前在具有 70 个潜在减速器的集群上为 7)。
更新:
没有效果,不过值得一试。
hadoop - PIG 和 HIVE 可以称为单独的编程模型吗?
这个问题可能听起来很烦人,实际上可能与真正的编程没有任何关系。这是我与一位同事进行的一场小型辩论的衍生产品。他一直坚持认为 HIVE 和 PIG 可以被称为独立的“编程模型”,因为当你在这些中编写 MapReduce 作业时,你真的不需要在 MapReduce 中思考——特别是如果你在 HIVE 中编程。从程序员的角度来看,MapReduce 部分是完全抽象的。它完全类似于 SQL。
但我有点不同意,因为用这些语言编写的脚本最终会转换为多个 mapreduce 作业。因此,这些可以称为更高级别的编程语言来为相同的模型进行编程。并且应该从等待处理的底层数据的角度来看待编程模型这个词,而不是程序员。
你怎么看?
performance - Hive、hadoop 和 hive.exec.reducers.max 背后的机制
在这个其他问题的上下文中
使用 hive.exec.reducers.max 指令真的让我感到困惑。
从我的角度来看,我认为 hive 处理某种逻辑,例如,我在所需的查询中有 N 个块,所以我需要 N 个映射。从 NI 将需要一些合理的 reducer R 范围,它可以是从 R = N / 2 到 R = 1 的任何位置。对于我正在处理的 hive 报告,有 1200 多张地图,并且没有任何影响 hive 制定了大约 400 的计划减速器很好,除了我正在处理一个总共只有 70 个减速器的集群。即使使用公平的作业调度程序,这也会导致积压,从而挂起其他作业。所以我尝试了很多不同的实验,直到找到 hive.exec.reducers.max 并将其设置为 60 左右。
结果是,一个耗时 248 分钟的 Hive 作业在 155 分钟内完成,结果没有任何变化。困扰我的是,为什么不将 hive 默认设置为 N 永远不会大于集群减速器的容量,并且看到我可以使用减少的减速器集翻转数 TB 的数据,然后 hive 认为是正确的,总是尝试更好吗并调整这个计数?