“hive”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

2936 浏览

windows-ce - Flash 中基于 Hive 的注册表

首先，我会说我已经阅读了这里的帖子，但我仍然遇到问题。

我正在尝试使用基于配置单元的注册表创建 CE6 映像，该注册表实际上通过重新启动存储结果。

我已经在目录项中勾选了配置单元设置。
在 common.reg 中，我已将配置单元的位置 ([HKEY_LOCAL_MACHINE\init\BootVars] "SystemHive") 设置为 "Hard Drive\Registry"（注意：闪存显示为名为 "Hard Drive" 的设备）
在 common.reg 中，我在同一个位置设置了“Flags”=dword:3 以使设备管理器与存储管理器一起加载
我已经验证这些设置包含在“；HIVE BOOT SECTION”中

这是它开始倒下的地方。一切都编译得很好，但是在目标系统上，当它启动时，我得到：

放置注册表的目录，称为“硬盘”
一个名为“Hard Disk2”的设备，其中永久闪存位于
对注册表所做的任何更改都会在重新启动时丢失

我还缺少什么？为什么注册表没有存储在闪存上？

奇怪的是，如果我在注册表目录中创建一个随机文件/目录，它在重新启动后仍然存在，所以即使这个目录不在另一个分区上（我试图把它放在哪里），它似乎是永久的. 如果是永久的，为什么不保存注册表设置（即以太网适配器 IP 地址？）

我没有使用任何特定的配置文件，所以我不知道最后一步是使这个配置单元注册表成为永久存储。

2010-04-23T07:40:46.283

0 投票

1 回答

435 浏览

amazon-ec2 - 如何在 Amazon Elastic Mapreduce 之上使用 Hive 来处理 Amazon Simple DB 中的数据？

我在 Amazon Simple DB 域中有很多数据。我想在 Elastic Map Reduce 上启动 Hive（在 hadoop 之上），并且以某种方式从 simpledb 导入数据，或者连接到 simpledb 并在其上运行 hiveql 查询。我在导入数据时遇到问题。任何指针？

amazon-ec2 amazon-web-services hive amazon-emr

2010-06-25T21:13:56.143

0 投票

1 回答

1425 浏览

hadoop - hadoop/hive 上的均匀数据分布

我正在尝试仅使用 2 台机器的小型 hadoop 设置（用于实验）。我正在加载大约 13GB 的数据，一个大约 3900 万行的表，使用 Hive 的复制因子为 1。

我的问题是 hadoop 总是将所有这些数据存储在单个数据节点上。只有当我使用 setrep 将 dfs_replication 因子更改为 2 时，hadoop 才会在另一个节点上复制数据。我还尝试了平衡器（$HADOOP_HOME/bin/start-balancer.sh -threshold 0）。平衡器认识到它需要移动 5GB 左右才能平衡。但是说：No block can be moved. Exiting...并退出：

任何人都可以建议如何在不复制的情况下在 hadoop 上实现数据的均匀分布？

hadoop hive

2010-07-06T11:31:26.347

0 投票

19 回答

208201 浏览

hadoop - 猪和蜂巢的区别？为什么两者都有？

我的背景——在 Hadoop 世界中已有 4 周的历史。使用 Cloudera 的 Hadoop VM 涉足 Hive、Pig 和 Hadoop。已阅读 Google 关于 Map-Reduce 和 GFS 的论文（PDF 链接）。

我明白那个-

Pig 的语言 Pig Latin 是从（适合程序员的思维方式）SQL 之类的声明式编程风格的转变，而 Hive 的查询语言与 SQL 非常相似。
Pig 位于 Hadoop 之上，原则上也可以位于 Dryad 之上。我可能错了，但 Hive 与 Hadoop 紧密耦合。
Pig Latin 和 Hive 命令都编译为 Map 和 Reduce 作业。

我的问题 - 当一个（比如猪）可以达到目的时，两者兼有的目标是什么。仅仅是因为 Pig 被 Yahoo! 传福音了吗？和 Facebook 的 Hive？

hadoop hive apache-pig

2010-07-28T18:42:35.103

0 投票

7 回答

29641 浏览

c# - How to connect to Hadoop/Hive from .NET

I am working on a solution where I will have a Hadoop cluster with Hive running and I want to send jobs and hive queries from a .NET application to be processed and get notified when they are done. I can't find any solutions for interfacing with Hadoop other than directly from a Java app, is there an API I can access that I am just not finding?

c#hadoop hive

2010-08-16T14:03:02.453

0 投票

3 回答

5596 浏览

mysql - 用于大规模夜间/每小时 Hive/MySQL 数据处理的 Spring-Batch

我正在考虑替换一堆 Python ETL 脚本，这些脚本执行每晚/每小时的数据摘要和对大量数据的统计收集。

我想要实现的是

鲁棒性 - 失败的作业/步骤应自动重新启动。在某些情况下，我想改为执行恢复步骤。
框架必须能够从崩溃中恢复。我想这里需要一些坚持。
监控 - 我需要能够监控作业/步骤的进度，最好查看有关性能的历史记录和统计信息。
可追溯性 - 我必须能够了解执行的状态
手动干预 - 很高兴...能够从 API / UI / 命令行启动/停止/暂停作业。
简单——当我介绍替代品时，我不想让我的同事生气……拥有一个简单易懂的 API 是必需的。

当前脚本执行以下操作：

从多台机器收集文本日志，并将它们推送到Hadoop DFS。我们将来可能会在这一步中使用 Flume（参见http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/）。
对数据执行Hive汇总查询，并插入（覆盖）到新的 Hive 表/分区。
将新的汇总数据提取到文件中，然后加载（合并）到 MySql 表中。这是稍后在线报告所需的数据。
对新添加的 MySql 数据（来自 MySql 表）执行附加连接，并更新数据。

我的想法是用 spring-batch 替换脚本。我也研究了Scriptella，但我认为这对于这种情况来说太“简单”了。

因为我在 Spring-Batch 上看到了一些不好的感觉（主要是旧帖子），所以我希望在这里得到一些输入。我也没有看到太多关于 spring-batch 和 Hive 集成的东西，这很麻烦。

mysql hadoop etl hive spring-batch

2010-08-16T16:18:22.890

0 投票

4 回答

30657 浏览

sql - 将多行合并为一个空格分隔的字符串

所以我有5行这样

我将如何进行查询，使其看起来像这样

sql mysql hive

2010-09-13T19:34:23.680

0 投票

1 回答

3681 浏览

apache-pig - 将 Hive 与 Pig 一起使用

我的 hive 查询有多个外部连接，执行时间很长。我想知道将其分解为多个较小的查询并使用 pig 进行转换是否有意义。

有没有办法可以在猪脚本中查询配置单元表或读取配置单元表数据？

谢谢

apache-pig hive

2010-09-27T05:31:32.057

0 投票

2 回答

1640 浏览

hive - 在 Hive 上编写使用外部 java 类的自定义函数

我一直在考虑如何在 Hive 中做到这一点。

例如，我在日志文件中有一个要提取的特定字段（这在 Hive 中已经可以实现），然后我想将此字段的值映射到其他内容。此映射由编写在 Java 类中的自定义业务逻辑确定。如何在 Hive 中使用这个 Java 类？

hive

2010-10-28T21:22:01.670

0 投票

3 回答

149780 浏览

hadoop - Hive 有字符串拆分功能吗？

我正在寻找 Hive 中的内置字符串拆分功能？例如，如果字符串是：

然后我想要一个像这样的功能：

这样我就回来了：

Hive 中是否存在这样的内置拆分功能。

我只能看到regexp_extract和regexp_replace。我很想看到 aindexOf()和split()string 函数。

hadoop hive

2010-11-01T00:54:08.793

问题标签 [hive]

Reference