7

我是新来的,但需要知道对通过 Apache Hadoop 编写的程序进行单元测试的最佳方法。我知道我们可以用 jUnit 方式为 map 和 reduce 方法中的逻辑编写单元测试用例。我们也可以对涉及的其他逻辑执行相同的操作,但这并不能保证它经过良好测试并且可以在实际运行环境中运行。

我读过关于 MRUnit 的文章,但它似乎也像我上面提到的那样,但以更成熟的方式。但它也不是作为真正的 mapreduce 工作运行的,而是一个模拟的工作。

任何帮助,将不胜感激。

谢谢。

4

1 回答 1

3

你当然还有其他选择。稍微谷歌搜索,你就会自己得到它。在这里,我为你做到了!

这是我粘贴的文本:http: //blog.cloudera.com/blog/2009/07/advice-on-qa-testing-your-mapreduce-jobs/

除了使用传统的 jUnit 和 MRUnit,您还有以下选择:

本地作业运行器测试——在单个 JVM 中的单个机器上运行 MR 作业

传统的单元测试和 MRUnit 应该可以在早期检测错误,但两者都不会使用 Hadoop 测试您的 MR 作业。本地作业运行器允许您在本地机器上运行 Hadoop,在一个 JVM 中,使 MR 作业在作业失败的情况下更容易调试。

要启用本地作业运行器,请将“mapred.job.tracker”设置为“local”,将“fs.default.name”设置为“file:///some/local/path”(这些是默认值)。

请记住,使用本地作业运行程序时无需启动任何 Hadoop 守护程序。运行bin/hadoop将启动一个 JVM 并为你运行你的工作。创建一个新的 hadoop-local.xml 文件(或 mapred-local.xml 和 hdfs-local.xml,如果您使用的是 0.20)可能是有意义的。然后,您可以使用–config参数告诉bin/hadoop使用哪个配置目录。如果您不想摆弄配置文件,您可以创建一个实现Tool并使用ToolRunner的类,然后使用bin/hadoop jar foo.jar com.example.Bar -D mapred.job.tracker=local运行这个类-D fs.default.name=file:/// (args),其中Bar是工具实现。

要开始使用本地作业运行器在 Hadoop 中测试您的 MR 作业,请创建一个启用本地作业运行器的新配置目录,并像往常一样调用您的作业,记住包含--config参数,该参数指向包含您的目录的目录本地配置文件。

-conf参数也适用于0.18.3并允许您指定 hadoop-local.xml 文件,而不是使用–config指定目录。Hadoop 将愉快地运行这项工作。这种测试形式的困难在于验证作业是否正确运行。注意:在运行作业之前,您必须确保输入文件设置正确并且输出目录不存在。

假设您已成功配置本地作业运行器并运行作业,您将必须验证您的作业是否正确完成。仅仅基于退出代码的成功是不够的。至少,您需要验证作业的输出是否正确。您可能还想扫描bin/hadoop的输出以查找异常。您应该创建一个脚本或单元测试来设置前置条件、运行作业、区分实际输出和预期输出以及扫描引发的异常。然后,此脚本或单元测试可以以适当的状态退出,并输出说明作业如何失败的特定消息。

请注意,本地作业运行器有几个限制:仅支持一个减速器,并且DistributedCache不起作用(正在修复)。

伪分布式测试——使用守护进程在单台机器上运行 MR 作业

本地作业运行器允许您在单个线程中运行作业。在单线程中运行 MR 作业对调试很有用,但它不能正确模拟运行多个 Hadoop 守护程序(例如, NameNode、DataNode、TaskTracker、JobTracker、SecondaryNameNode)的真实集群。伪分布式集群由运行所有 Hadoop 守护进程的单台机器组成。这个集群仍然相对容易管理(虽然比本地作业运行器更难)并且比本地作业运行器更好地测试与 Hadoop 的集成。

要开始使用伪分布式集群在 Hadoop 中测试您的 MR 作业,请遵循上述使用本地作业运行器的建议,但在您的前置条件设置中包括所有 Hadoop 守护程序的配置和启动。然后,要开始您的工作,只需像往常一样使用bin/hadoop 。

完整的集成测试——在 QA 集群上运行 MR 作业

测试 MR 作业的最彻底但最繁琐的机制可能是在至少由几台机器组成的 QA 集群上运行它们。通过在 QA 集群上运行 MR 作业,您将测试作业的所有方面及其与 Hadoop 的集成。

在 QA 集群上运行作业与本地作业运行器存在许多相同的问题。也就是说,您必须检查作业输出的正确性。您可能还想扫描每次任务尝试产生的标准输入标准输出,这需要将这些日志收集到一个中心位置并对其进行 grep。Scribe是收集日志的有用工具,但根据您的 QA 集群,它可能是多余的。

我们发现,我们的大多数客户都有某种 QA 或开发集群,他们可以在其中部署和测试新作业,尝试更新版本的 Hadoop,并练习将集群从一个 Hadoop 版本升级到另一个版本。如果 Hadoop 是您的生产管道的主要部分,那么创建一个 QA 或开发集群就很有意义,并且在其上重复运行作业将确保对您的作业的更改继续得到彻底的测试。EC2 可能是您的 QA 集群的好主机,因为您可以按需启动和关闭它。如果您有兴趣在 EC2 中创建 QA 集群,请查看我们的测试版EC2 EBS Hadoop 脚本。

您应该根据 QA 对您的组织的重要性以及您拥有的资源量来选择 QA 实践。只需使用传统的单元测试框架,MRUnit 和本地作业运行器就可以以简单的方式彻底测试您的 MR 作业,而无需使用太多资源。但是,在 QA 或开发集群上运行作业自然是使用 Hadoop 集群的费用和运营任务全面测试 MR 作业的最佳方式。

于 2012-12-18T16:56:39.610 回答