我正在寻找一个 Java Matrix 库来执行数据分析和实现聚类算法(如 K-means 或 DBSCAN)
我发现 Colt 和 Parallel Colt(在大型和小型数据集上表现最佳)但显然它们不支持 String Matrices 。数据集条目应该只是 Double 矩阵。
有什么建议吗?
提前谢谢你的帮助 。
我正在寻找一个 Java Matrix 库来执行数据分析和实现聚类算法(如 K-means 或 DBSCAN)
我发现 Colt 和 Parallel Colt(在大型和小型数据集上表现最佳)但显然它们不支持 String Matrices 。数据集条目应该只是 Double 矩阵。
有什么建议吗?
提前谢谢你的帮助 。
看看埃尔基。它支持任意距离函数,并且已经具有余弦距离。所以它显然可以在文本数据上运行这些算法。
请注意,对于大多数应用程序,您需要将字符串数据转换为 TF-IDF 向量,因为余弦距离也在数值向量上定义。但是,这些向量通常是稀疏的,因此对稀疏向量进行优化处理是有回报的。