我有下面的人和他的技能数据已经在 solr 中被索引
Candidate, Skills
-----------------
1, Java, JSP, Servlet, Spring, Hibernate
2, Java JSP, JDBC
3, Java, JDBC, RMI
4, JDBC, SQL
5, .Net, C#
从上面我想建立与每个技能的术语关系数据以及它们的相关程度,因此稍后这些信息可用于更好地搜索任何要求的候选人,并且新技能可以与现有技能正确关联。
根据研究,我发现我需要对向量项进行聚类可能是 mahout 或 carrot2,但我不确定如何执行此操作。
我相信carrot2在内存集群中确实如此,因此缩放可能是问题,所以我正在寻找mahout的首选选项。