1

我正在尝试从推文列表中提取可能的主题,LingPipe LDA 似乎很容易理解,并且带有代码示例。

我的挑战是使用推文数据生成矩阵表示。例如,

static String[] WORDS = new String[] { "river", "stream", "bank", "money", "loan" };

静态最终 int[][] DOC_WORDS = new int[][] {

{ 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 0, 0, 0 },
{ 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 0, 0 },
{ 0, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 0 },
{ 0, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4 }

}

上述矩阵末尾的零应该表示在内容中找不到 WORDS 数组中的任何单词。然而,在这个表示中,假设是零索引或者找到了单词“river”。

由于推文很短,我不确定如何表示矩阵,以便它也可以显示单词的“不存在”。

任何其他方法的建议或建议都非常感谢。

4

0 回答 0