Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
有人知道做术语聚类的开源\免费库吗?
谢谢,亚尼夫
Apache Mahout提供了集群算法。
结帐NLTK。有许多可能对您有用的集群模块。
WEKA拥有一整套用于文本处理和聚类的工具。
Python Scikit learn有一些用于文本分析的专用包。此外,他们有一套完整的聚类算法,包括K-means、AP、Mean shift、Spectral Clustering、Hierarchical Clustering和DBSCAN算法(具有适当的评估指标)。这可能对您的术语聚类任务有所帮助。
链接到Scikit Learn 最新视频教程
链接到Scikit 学习书
如果您使用 Python,则有 NLTK,正如它的作者已经提到的那样,但也有sklearn ,它提供的不仅仅是集群。(链接带你到文本适用的例子)。