我有一组文档,其中每一行都有一定数量的字符串,用“\t|\t”分隔。每个字符串(之间可能包含空格)是一个不可分割的字典项。现在我必须使用 LDA 来查找这些文档之间关于每个字典单词(我的词汇中的字符串)的相关性。
请指导我如何将这些文档转换为备用矢量格式,然后如何在它们上应用 LDA?
这是我发现的可以回答您的查询的最佳链接之一。
http://www.theglassicon.com/computing/machine-learning/running-lda-algorithm-mahout