2

(我确定存在类似的问题,但我还没有找到我正在寻找的答案。)

我正在使用HadoopHive(对于熟悉 SQL 的开发人员)每晚批处理数 TB 的数据。从几百个大型 CSV 文件的输入中,我输出了四五个相当大的 CSV 文件。显然,Hive 将这些存储在 HDFS 中。最初,这些输入文件是从一个巨大的 SQL 数据仓库中提取的。

Hadoop 对于它所做的事情非常有价值。但是处理输出的行业标准是什么?现在我正在使用 shell 脚本将它们复制回本地文件夹并将它们上传到另一个数据仓库。

本题:(Hadoop与MySQL集成)调用Hadoop导出非标准重新导入的做法。如何使用 BI 工具探索我的数据,或将结果集成到我的 ASP.NET 应用程序中?节约?原型?Hive ODBC API 驱动程序?一定会有更好的办法.....

开导我。

4

1 回答 1

3

在foursquare,我使用Hive 的Thrift 驱动程序根据需要将数据放入数据库/电子表格。

我维护了一个作业服务器,它通过 Hive 驱动程序执行作业,然后将输出移动到需要的地方。直接使用 Thrift 非常简单,并且允许您使用任何编程语言。

如果您直接处理 hadoop(并且不能使用它),您应该查看由 Cloudera 构建的 Sqoop

Sqoop 设计用于批量移动数据(而 Flume 设计用于实时移动数据,并且似乎更倾向于将数据放入 hdfs 而不是取出数据)。

希望有帮助。

于 2011-06-07T20:43:22.700 回答