问题标签 [hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - hive/hadoop 如何确保每个映射器都处理它的本地数据?
困扰我的2个基本问题:
- 我如何确定 hive 用于存储我的表的 32 个文件中的每一个都位于其唯一的机器上?
- 如果发生这种情况,我如何确定如果 hive 创建了 32 个映射器,它们中的每一个都将处理其本地数据?hadoop/hdfs 是否保证了这种魔力,或者作为智能应用程序的 hive 是否确保它会发生?
背景:我有一个由 32 台机器组成的蜂巢集群,并且:
- 我所有的表都是用
"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
- 我用
hive.enforce.bucketing = true;
- 我验证并且确实每个表都存储为用户/配置单元/仓库中的 32 个文件
- 我使用的 HDFS 复制因子为 2
谢谢!
hadoop - 理论上可以在蜂巢中进行并置连接(a-la-netezza)吗?
当您连接分布在相同键上的表并在连接条件中使用这些键列时,netezza 中的每个 SPU(机器)都 100% 独立工作(参见nz-interview)。
在hive中,有bucketed map join,但是代表表的文件分配到datanode是HDFS的责任,不是按照hive CLUSTERED BY key来做的!
所以假设我有 2 个表,由相同的键聚集,并且我通过该键加入 - 配置单元可以从 HDFS 获得保证匹配的存储桶将位于同一个节点上吗?还是总是必须将小表的匹配桶移动到包含大表桶的数据节点?
谢谢,伊多
(注意:这是对我之前的问题的更好表述:hive/hadoop 如何确保每个映射器都适用于它的本地数据?)
hadoop - 从 OLTP Mysql 使用 Hadoop Hive 制作 OLAP
我有点混淆了我从 Wiki 中读到的用于制作 OLAP 的 Hadoop 配置单元。现在我想从使用 Mysql 的 OLTP 数据库在 Hive 上制作 OLAP。
我怎么能解决这个问题?我可以在 Hive 中使用 Kettle 制作 OLAP 吗?任何指导如何从 OLTP mysql 在 Hive 上制作 OLAP?
谢了。
java - Hive 开箱即用的 json 解析器
我有一个包含要加载到 Hive 的 json 记录的文本文件。我的 json 看起来像:
如您所见,我有一个嵌套的 json,其中包含基元数组和对象数组。
是否可以使用任何内置函数将其按原样加载到 Hive?
约西
hadoop - 在 Pentaho hadoop 上创建数据源 Hive
我尝试使用 pentaho hadoop 使用 Hive 数据源制作报表设计器。我已经与 hadoop 建立了联系
然后我创建了指向 Hive 数据库的数据源来访问里面的 Table。
然后当我设计报表并将表格的字段拖到设计器工作区时,会出现错误消息
发生意外错误:生成的 SQL 查询未成功执行。
在 pentaho 完整错误的日志中,如下所示:
我的 Hive 或 Pentaho 配置有什么问题?
我该如何解决这个问题?
hive - Sqoop 命令 --hive-import 失败
我尝试使用 Hadoop 将数据库从 mysql 导入 Hive,并使用 Sqoop 中的“--hive-import”命令自动创建表并加载数据到 hive。
我使用下面的命令通过 sqoop 执行导入
当我执行此命令时,错误发生如下
我的 sqoop 命令有什么问题?或者在 sqoop 或 hive 中是否有其他配置?
请帮帮我
sql - 用 unix sort、uniq 和 awk 替换 SQL 查询
我们目前在 HDFS 集群上有一些数据,我们使用 Hive 在其上生成报告。基础设施正在退役,我们的任务是提出生成数据报告的替代方案(我们将其作为制表符分隔的文件导入到我们的新环境中)
假设我们有一个包含以下字段的表。
- 询问
- IP地址
- 位置代码
我们曾经在 Hive 上运行的原始 SQL 查询是(不完全是……但类似的东西)
我想知道是否有人可以使用标准 unix/linux 工具(如 sort、uniq 和 awk)为我提供最有效的脚本,这些工具可以替代上述查询。
假设脚本的输入是文本文件的目录。该目录将包含大约 2000 个文件。每个文件将包含任意数量的制表符分隔记录,格式为:
sql - 忽略 Apache Hive 中外部表中的子目录
Hive 在查询外部表时是否有设置或强制它忽略子目录的方法?我的表文件夹中有一个不属于表数据的子目录,我想避免删除它或将文件复制到其他地方。
cassandra - 嵌入式轻快?可能吗?
我刚刚开始开发一个新应用程序,并决定尝试/学习 Cassandra 并将其用于后端。
我让嵌入式 Cassandra 像魅力一样工作。现在我想在顶部添加 Hive。以前有没有人尝试过嵌入 Brisk(来自 DataStax)?
这甚至可能与所有移动部件一起使用吗?
谢谢!
最大限度
java - 在 Hadoop 上运行 Hive 的问题
我下载了最新的 Hive 版本 0.7.1。
找不到 hadoop 安装:必须设置 $HADOOP_HOME 或 hadoop 必须在路径中
我进入这个目录 /home/hadoop/hive-0.7.1-bin/bin 并尝试运行 Hive Shell。
./hive shell 但我在 CLI 中收到上述错误。
我尝试设置路径: $HADOOP_HOME=home/hadoop/hadoop/bin
我正在使用 Hadoop 0.20.2