-1

我们正在组织中设置 Hadoop 和 Hive。我们还将拥有由数据生成器工具创建的示例数据。数据将在 1 TB 左右。我的问题是 - 我必须将该数据加载到 Hive 和 Hadoop 中。为此我需要遵循什么流程?

我们还将安装 HBase 和 Hadoop。我们需要创建与 SQL Server 中相同的数据库设计。但使用 Hive。Cz 将此数据加载到 hive 后,我们希望使用 Business Objects 4.1 作为前端来创建报告。挑战是将样本数据加载到 Hive 中。请帮助我,因为我们想尽快完成所有事情。

4

2 回答 2

1
  • 首先在 HDFS 中摄取数据
  • 使用 Hive 外部表,指向您提取数据的位置,即您的 hdfs 目录。
  • 您已准备好从您在 Hive 中创建的表中查询数据。
  • 祝你好运。
于 2015-05-20T19:12:45.917 回答
0

对于第一种情况,您需要将数据放入 hdfs。

  1. 将您的数据文件传输到客户端节点(应用程序节点)
  2. 将您的文件放入分发文件系统(hdfs dfs -put ...)
  3. 创建一个指向您上传这些文件的 hdfs 目录的外部表。您的数据具有某种结构。例如用分号分隔。
  4. 现在您可以使用 sql 查询对数据进行操作。

对于第二种情况,您可以创建另一个配置单元表(使用 HBaseStorageHandler ,https: //cwiki.apache.org/confluence/display/Hive/HBaseIntegration )并使用 Insert 语句从第一个表加载。

我希望这可以帮助你。

于 2013-09-26T15:49:38.690 回答