2

我有字符串列表。(相当大的 id 和字符串列表分散在 4-5 个大文件中。每个大约 1 GB)。这些字符串的格式如下:

1,嗨

2,你好怎么ru?

2、怎么熬?

3、去哪儿?

3、这是什么意思

3、什么意思

现在我想对这些字符串进行文本挖掘,并想准备一个树状图,我想用以下方式显示字符串

1-嗨

2-嗨,你好吗?

 ----How r u?

3-这是什么意思?

 ----what it means?

3-你在哪里?

此输出基于特定人员的 id(假设使用这些字符串的人的 ID)后面的逗号后的字符串的相似性。如果其他人使用相同的词,则应根据他使用的字符串进行分组。

现在,这似乎是一项简单的任务。但我想在 hadoop/Mahout 上做这样的事情,或者在集群的 linux 机器上支持大量数据的事情。以及我应该如何解决这个问题。我已经在 Mahout 中尝试过不同的方法,其中我尝试创建序列文件和 seq2sparse 向量,然后尝试进行聚类。但这对我不起作用。方向上的任何帮助或指示将是一个很大的帮助。

谢谢和问候, 阿图尔

4

1 回答 1

2

我认为你真正需要的是层次聚类。为Mahout 提出了一种实现,一种也在Shogun Toolbox中实现(也是为大规模计算而设计的)。但是很难保证它会起作用,因为输入似乎很难。

于 2011-09-04T23:01:59.693 回答