hadoop - Hadoop 基础知识：我如何处理输出？

Question

（我确定存在类似的问题，但我还没有找到我正在寻找的答案。）

我正在使用Hadoop和Hive（对于熟悉 SQL 的开发人员）每晚批处理数 TB 的数据。从几百个大型 CSV 文件的输入中，我输出了四五个相当大的 CSV 文件。显然，Hive 将这些存储在 HDFS 中。最初，这些输入文件是从一个巨大的 SQL 数据仓库中提取的。

Hadoop 对于它所做的事情非常有价值。但是处理输出的行业标准是什么？现在我正在使用 shell 脚本将它们复制回本地文件夹并将它们上传到另一个数据仓库。

本题：（Hadoop与MySQL集成）调用Hadoop导出非标准重新导入的做法。如何使用 BI 工具探索我的数据，或将结果集成到我的 ASP.NET 应用程序中？节约？原型？Hive ODBC API 驱动程序？一定会有更好的办法.....

开导我。

score 3 · Accepted Answer

在foursquare，我使用Hive 的Thrift 驱动程序根据需要将数据放入数据库/电子表格。

我维护了一个作业服务器，它通过 Hive 驱动程序执行作业，然后将输出移动到需要的地方。直接使用 Thrift 非常简单，并且允许您使用任何编程语言。

如果您直接处理 hadoop（并且不能使用它），您应该查看由 Cloudera 构建的 Sqoop

Sqoop 设计用于批量移动数据（而 Flume 设计用于实时移动数据，并且似乎更倾向于将数据放入 hdfs 而不是取出数据）。

希望有帮助。

1 回答 1