(我确定存在类似的问题,但我还没有找到我正在寻找的答案。)
我正在使用Hadoop和Hive(对于熟悉 SQL 的开发人员)每晚批处理数 TB 的数据。从几百个大型 CSV 文件的输入中,我输出了四五个相当大的 CSV 文件。显然,Hive 将这些存储在 HDFS 中。最初,这些输入文件是从一个巨大的 SQL 数据仓库中提取的。
Hadoop 对于它所做的事情非常有价值。但是处理输出的行业标准是什么?现在我正在使用 shell 脚本将它们复制回本地文件夹并将它们上传到另一个数据仓库。
本题:(Hadoop与MySQL集成)调用Hadoop导出非标准重新导入的做法。如何使用 BI 工具探索我的数据,或将结果集成到我的 ASP.NET 应用程序中?节约?原型?Hive ODBC API 驱动程序?一定会有更好的办法.....
开导我。