0

我有下面的人和他的技能数据已经在 solr 中被索引

Candidate, Skills
-----------------
1, Java, JSP, Servlet, Spring, Hibernate 
2, Java JSP, JDBC
3, Java, JDBC, RMI
4, JDBC, SQL
5, .Net, C#

从上面我想建立与每个技能的术语关系数据以及它们的相关程度,因此稍后这些信息可用于更好地搜索任何要求的候选人,并且新技能可以与现有技能正确关联。

根据研究,我发现我需要对向量项进行聚类可能是 mahout 或 carrot2,但我不确定如何执行此操作。

我相信carrot2在内存集群中确实如此,因此缩放可能是问题,所以我正在寻找mahout的首选选项。

4

2 回答 2

2

Mahout 是用于分布式可扩展机器学习算法的库。因此,如果您的数据大小小于 500Gb,并且您不希望使用超过 1 台机器 - Carrot2 或 Weka 或 python scikit + nltk 是正确的选择。否则马豪。第二点是 Mahout 可以“开箱即用”地使用 Solr 向量。

于 2014-03-27T18:27:38.150 回答
0

Carrot2 适用于自然文本(如网页、新闻文章)的聚类,而你的数据实际上是一组符号。因此,Carrot2 在这项任务中对您帮助不大。Mahout 确实有许多适合您的数据的聚类算法,您也可以尝试Weka,它带有一套全面的机器学习工具和 UI。

于 2014-03-20T21:13:56.637 回答