solr - 来自 solr 的术语关系和分数

Question

我有下面的人和他的技能数据已经在 solr 中被索引

Candidate, Skills
-----------------
1, Java, JSP, Servlet, Spring, Hibernate 
2, Java JSP, JDBC
3, Java, JDBC, RMI
4, JDBC, SQL
5, .Net, C#

从上面我想建立与每个技能的术语关系数据以及它们的相关程度，因此稍后这些信息可用于更好地搜索任何要求的候选人，并且新技能可以与现有技能正确关联。

根据研究，我发现我需要对向量项进行聚类可能是 mahout 或 carrot2，但我不确定如何执行此操作。

我相信carrot2在内存集群中确实如此，因此缩放可能是问题，所以我正在寻找mahout的首选选项。

score 2 · Accepted Answer

Mahout 是用于分布式和可扩展机器学习算法的库。因此，如果您的数据大小小于 500Gb，并且您不希望使用超过 1 台机器 - Carrot2 或 Weka 或 python scikit + nltk 是正确的选择。否则马豪。第二点是 Mahout 可以“开箱即用”地使用 Solr 向量。

score 0 · Accepted Answer

Carrot2 适用于自然文本（如网页、新闻文章）的聚类，而你的数据实际上是一组符号。因此，Carrot2 在这项任务中对您帮助不大。Mahout 确实有许多适合您的数据的聚类算法，您也可以尝试Weka，它带有一套全面的机器学习工具和 UI。

solr - 来自 solr 的术语关系和分数

2 回答 2

Related

Reference