我有多个文件,其中包含员工的姓名、ID 和技能集,另一个文件“skills.txt”包含一些特定技能的列表。我正在尝试编写一个 java mapreduce 程序来找出具有 Skill.txt 中提到的技能的员工。
例如,假设有 3 个员工文件如下:
emp1.txt-
姓名:Tom
EmpId:001
技能:C++、Java、SQL
emp2. txt-
姓名:Jerry
EmpId:002
技能:C++、PHP、SQL
emp3.txt-
姓名:Jack
EmpId:002
技能:Java、PHP
Skills.txt-
PHP
SQL
那么我的结果应该如下。
PHP 杰瑞-002 ; 杰克-003
SQL 汤姆-001;杰瑞-002
所有这四个文件都在我的 HDFS 中。我对 hadoop 和 mapreduce 很陌生。我已经为此付出了很多努力,但没有得到任何适当的逻辑来做到这一点。我能够编写程序,如果只有一项技能并且我获得了搜索所需的技能作为 mapreduce 程序的参数。但是当要搜索多种技能并且技能与其他员工文件一起以文件格式存在时,我无法执行此操作。