问题标签 [hive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2936 浏览

windows-ce - Flash 中基于 Hive 的注册表

首先,我会说我已经阅读了这里的帖子 ,但我仍然遇到问题。

我正在尝试使用基于配置单元的注册表创建 CE6 映像,该注册表实际上通过重新启动存储结果。

  • 我已经在目录项中勾选了配置单元设置。
  • 在 common.reg 中,我已将配置单元的位置 ([HKEY_LOCAL_MACHINE\init\BootVars] "SystemHive") 设置为 "Hard Drive\Registry"(注意:闪存显示为名为 "Hard Drive" 的设备)
  • 在 common.reg 中,我在同一个位置设置了“Flags”=dword:3 以使设备管理器与存储管理器一起加载
  • 我已经验证这些设置包含在“;HIV​​E BOOT SECTION”中

这是它开始倒下的地方。一切都编译得很好,但是在目标系统上,当它启动时,我得到:

  • 放置注册表的目录,称为“硬盘”
  • 一个名为“Hard Disk2”的设备,其中永久闪存位于
  • 对注册表所做的任何更改都会在重新启动时丢失

我还缺少什么?为什么注册表没有存储在闪存上?

奇怪的是,如果我在注册表目录中创建一个随机文件/目录,它在重新启动后仍然存在,所以即使这个目录不在另一个分区上(我试图把它放在哪里),它似乎是永久的. 如果是永久的,为什么不保存注册表设置(即以太网适配器 IP 地址?)

我没有使用任何特定的配置文件,所以我不知道最后一步是使这个配置单元注册表成为永久存储。

0 投票
1 回答
435 浏览

amazon-ec2 - 如何在 Amazon Elastic Mapreduce 之上使用 Hive 来处理 Amazon Simple DB 中的数据?

我在 Amazon Simple DB 域中有很多数据。我想在 Elastic Map Reduce 上启动 Hive(在 hadoop 之上),并且以某种方式从 simpledb 导入数据,或者连接到 simpledb 并在其上运行 hiveql 查询。我在导入数据时遇到问题。任何指针?

0 投票
1 回答
1425 浏览

hadoop - hadoop/hive 上的均匀数据分布

我正在尝试仅使用 2 台机器的小型 hadoop 设置(用于实验)。我正在加载大约 13GB 的数据,一个大约 3900 万行的表,使用 Hive 的复制因子为 1。

我的问题是 hadoop 总是将所有这些数据存储在单个数据节点上。只有当我使用 setrep 将 dfs_replication 因子更改为 2 时,hadoop 才会在另一个节点上复制数据。我还尝试了平衡器($HADOOP_HOME/bin/start-balancer.sh -threshold 0)。平衡器认识到它需要移动 5GB 左右才能平衡。但是说:No block can be moved. Exiting...并退出:

任何人都可以建议如何在不复制的情况下在 hadoop 上实现数据的均匀分布?

0 投票
19 回答
208201 浏览

hadoop - 猪和蜂巢的区别?为什么两者都有?

我的背景——在 Hadoop 世界中已有 4 周的历史。使用 Cloudera 的 Hadoop VM 涉足 Hive、Pig 和 Hadoop。已阅读 Google 关于 Map-Reduce 和 GFS 的论文(PDF 链接)。

我明白那个-

  • Pig 的语言 Pig Latin 是从(适合程序员的思维方式)SQL 之类的声明式编程风格的转变,而 Hive 的查询语言与 SQL 非常相似。

  • Pig 位于 Hadoop 之上,原则上也可以位于 Dryad 之上。我可能错了,但 Hive 与 Hadoop 紧密耦合。

  • Pig Latin 和 Hive 命令都编译为 Map 和 Reduce 作业。

我的问题 - 当一个(比如猪)可以达到目的时,两者兼有的目标是什么。仅仅是因为 Pig 被 Yahoo! 传福音了吗?和 Facebook 的 Hive?

0 投票
7 回答
29641 浏览

c# - How to connect to Hadoop/Hive from .NET

I am working on a solution where I will have a Hadoop cluster with Hive running and I want to send jobs and hive queries from a .NET application to be processed and get notified when they are done. I can't find any solutions for interfacing with Hadoop other than directly from a Java app, is there an API I can access that I am just not finding?

0 投票
3 回答
5596 浏览

mysql - 用于大规模夜间/每小时 Hive/MySQL 数据处理的 Spring-Batch

我正在考虑替换一堆 Python ETL 脚本,这些脚本执行每晚/每小时的数据摘要和对大量数据的统计收集。

我想要实现的是

  • 鲁棒性 - 失败的作业/步骤应自动重新启动。在某些情况下,我想改为执行恢复步骤。
  • 框架必须能够从崩溃中恢复。我想这里需要一些坚持。
  • 监控 - 我需要能够监控作业/步骤的进度,最好查看有关性能的历史记录和统计信息。
  • 可追溯性 - 我必须能够了解执行的状态
  • 手动干预 - 很高兴...能够从 API / UI / 命令行启动/停止/暂停作业。
  • 简单——当我介绍替代品时,我不想让我的同事生气……拥有一个简单易懂的 API 是必需的。

当前脚本执行以下操作:

  • 从多台机器收集文本日志,并将它们推送到Hadoop DFS。我们将来可能会在这一步中使用 Flume(参见http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/)。
  • 对数据执行Hive汇总查询,并插入(覆盖)到新的 Hive 表/分区。
  • 将新的汇总数据提取到文件中,然后加载(合并)到 MySql 表中。这是稍后在线报告所需的数据。
  • 对新添加的 MySql 数据(来自 MySql 表)执行附加连接,并更新数据。

我的想法是用 spring-batch 替换脚本。我也研究了Scriptella,但我认为这对于这种情况来说太“简单”了。

因为我在 Spring-Batch 上看到了一些不好的感觉(主要是旧帖子),所以我希望在这里得到一些输入。我也没有看到太多关于 spring-batch 和 Hive 集成的东西,这很麻烦。

0 投票
4 回答
30657 浏览

sql - 将多行合并为一个空格分隔的字符串

所以我有5行这样

我将如何进行查询,使其看起来像这样

0 投票
1 回答
3681 浏览

apache-pig - 将 Hive 与 Pig 一起使用

我的 hive 查询有多个外部连接,执行时间很长。我想知道将其分解为多个较小的查询并使用 pig 进行转换是否有意义。

有没有办法可以在猪脚本中查询配置单元表或读取配置单元表数据?

谢谢

0 投票
2 回答
1640 浏览

hive - 在 Hive 上编写使用外部 java 类的自定义函数

我一直在考虑如何在 Hive 中做到这一点。

例如,我在日志文件中有一个要提取的特定字段(这在 Hive 中已经可以实现),然后我想将此字段的值映射到其他内容。此映射由编写在 Java 类中的自定义业务逻辑确定。如何在 Hive 中使用这个 Java 类?

0 投票
3 回答
149780 浏览

hadoop - Hive 有字符串拆分功能吗?

我正在寻找 Hive 中的内置字符串拆分功能?例如,如果字符串是:

然后我想要一个像这样的功能:

这样我就回来了:

Hive 中是否存在这样的内置拆分功能。

我只能看到regexp_extractregexp_replace。我很想看到 aindexOf()split()string 函数。