我即将开始一个使用 Apache Hadoop/Hive 的项目,该项目将涉及一组 hive 查询脚本来为各种下游应用程序生成数据馈送。这些脚本似乎是某些单元测试的理想候选者——它们代表了我的数据存储和客户端应用程序之间的 API 合同的履行,因此,为给定的起始数据集编写预期结果应该是微不足道的。我的问题是如何运行这些测试。
如果我使用 SQL 查询,我可以使用 SQLlite 或 Derby 之类的工具来快速启动测试数据库、加载测试数据并针对它们运行一组查询测试。不幸的是,我不知道有任何用于 Hive 的此类工具。目前,我最好的想法是让测试框架启动一个 hadoop 本地实例并针对它运行 Hive,但我以前从未这样做过,我不确定它是否会起作用,或者是否是正确的路径。
另外,我对关于我正在做的是单元测试还是集成测试的迂腐讨论不感兴趣——我只需要能够证明我的代码有效。