hadoop - 对大量字符串进行文本挖掘

Question

我有字符串列表。（相当大的 id 和字符串列表分散在 4-5 个大文件中。每个大约 1 GB）。这些字符串的格式如下：

1，嗨

2，你好怎么ru？

2、怎么熬？

3、去哪儿？

3、这是什么意思

3、什么意思

现在我想对这些字符串进行文本挖掘，并想准备一个树状图，我想用以下方式显示字符串

1-嗨

2-嗨，你好吗？

 ----How r u?

3-这是什么意思？

 ----what it means?

3-你在哪里？

此输出基于特定人员的 id（假设使用这些字符串的人的 ID）后面的逗号后的字符串的相似性。如果其他人使用相同的词，则应根据他使用的字符串进行分组。

现在，这似乎是一项简单的任务。但我想在 hadoop/Mahout 上做这样的事情，或者在集群的 linux 机器上支持大量数据的事情。以及我应该如何解决这个问题。我已经在 Mahout 中尝试过不同的方法，其中我尝试创建序列文件和 seq2sparse 向量，然后尝试进行聚类。但这对我不起作用。方向上的任何帮助或指示将是一个很大的帮助。

谢谢和问候，阿图尔

score 2 · Accepted Answer

我认为你真正需要的是层次聚类。为Mahout 提出了一种实现，一种也在Shogun Toolbox中实现（也是为大规模计算而设计的）。但是很难保证它会起作用，因为输入似乎很难。

hadoop - 对大量字符串进行文本挖掘

1 回答 1

Related

Reference