我想对文本进行聚类。我有点理解Mahout in Action中集群纯文本内容的概念:
- 对输入中的所有术语进行映射(int -> term)并存储到字典中
- 将所有输入文档转换为规范化的稀疏向量
- 做聚类
我想对文本以及日期时间、位置、和我在一起的人等其他信息进行聚类。例如,我希望将在一个遥远的地方进行为期 10 天的访问中制作的文档放入一个不同的集群中。
我知道我必须编写自己的工具来根据日期时间、位置、标签和(自然)文本制作矢量。我该如何处理?我应该使用内置工具对文本进行矢量化,然后将该输出集成到我自己的矢量中吗?称量尺寸怎么样?