我正在尝试从推文列表中提取可能的主题,LingPipe LDA 似乎很容易理解,并且带有代码示例。
我的挑战是使用推文数据生成矩阵表示。例如,
static String[] WORDS = new String[] { "river", "stream", "bank", "money", "loan" };
静态最终 int[][] DOC_WORDS = new int[][] {
{ 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 0, 0, 0 },
{ 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 0, 0 },
{ 0, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 0 },
{ 0, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4 }
}
上述矩阵末尾的零应该表示在内容中找不到 WORDS 数组中的任何单词。然而,在这个表示中,假设是零索引或者找到了单词“river”。
由于推文很短,我不确定如何表示矩阵,以便它也可以显示单词的“不存在”。
任何其他方法的建议或建议都非常感谢。