4

我是 Mahout 的新手。我需要将文本文件转换为向量以便在后期进行分类。

任何人都可以对以下这些问题有所了解吗?

  1. 如何在 mahout 中将文本文件转换为矢量?文件格式类似于“用户名|关于项目的评论|评分”
  2. 数据将是几 TB。那么,我可以使用我想创建的向量来使用哪种可实现的算法进行分类?

谢谢,阿伦

4

1 回答 1

2

您可以查看这 2 个示例,这些示例也有点做/解释了如何使用序列文件 API。这里这里

你绝对应该阅读这篇关于文本分析的介绍

于 2012-08-14T08:14:52.277 回答