4

我想对文本进行聚类。我有点理解Mahout in Action中集群纯文本内容的概念:

  1. 对输入中的所有术语进行映射(int -> term)并存储到字典中
  2. 将所有输入文档转换为规范化的稀疏向量
  3. 做聚类

我想对文本以及日期时间、位置、和我在一起的人等其他信息进行聚类。例如,我希望将在一个遥远的地方进行为期 10 天的访问中制作的文档放入一个不同的集群中。

我知道我必须编写自己的工具来根据日期时间、位置、标签和(自然)文本制作矢量。我该如何处理?我应该使用内置工具对文本进行矢量化,然后将该输出集成到我自己的矢量中吗?称量尺寸怎么样?

4

1 回答 1

1

我不能给你完整的实现细节,因为我不确定,但我可以帮助你解决一个难题。您几乎肯定需要一些上下文分析来提取实体(例如位置、时间/日期、人名)

为此,请查看 OpenNLP。

http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html

特别是查看词性标注器和名称查找器。

一旦你提取了相关实体, - 你“可能”能够使用 Mahout 分类对它们做一些事情,(一旦你提取了足够的实体来训练你的模型),但我不确定。

祝你好运

于 2013-10-17T09:35:08.853 回答