我有字符串列表。(相当大的 id 和字符串列表分散在 4-5 个大文件中。每个大约 1 GB)。这些字符串的格式如下:
1,嗨
2,你好怎么ru?
2、怎么熬?
3、去哪儿?
3、这是什么意思
3、什么意思
现在我想对这些字符串进行文本挖掘,并想准备一个树状图,我想用以下方式显示字符串
1-嗨
2-嗨,你好吗?
----How r u?
3-这是什么意思?
----what it means?
3-你在哪里?
此输出基于特定人员的 id(假设使用这些字符串的人的 ID)后面的逗号后的字符串的相似性。如果其他人使用相同的词,则应根据他使用的字符串进行分组。
现在,这似乎是一项简单的任务。但我想在 hadoop/Mahout 上做这样的事情,或者在集群的 linux 机器上支持大量数据的事情。以及我应该如何解决这个问题。我已经在 Mahout 中尝试过不同的方法,其中我尝试创建序列文件和 seq2sparse 向量,然后尝试进行聚类。但这对我不起作用。方向上的任何帮助或指示将是一个很大的帮助。
谢谢和问候, 阿图尔