我正在使用向量空间模型做一个搜索引擎项目,我需要为其创建一个术语文档矩阵,然后在其上应用 SVD。
我应该将术语作为行并将文档作为列吗?
我在java中做它应该是这样的:
计数[keywordList.size()][listOfFilesinCorpus.length];
还是应该反过来?我需要将此二维数组传递给 apache commons math:
RealMatrix A = Array2DRowRealMatrix(TDM) ;
其中 TDM 是术语文档矩阵。
我需要这些术语作为维度,然后我将比较向量空间中的文档。请帮忙,谢谢。