1

我正在我的应用程序中构建一个推荐系统,我可能会使用 apache mahout,我要收集一个大数据集,它将在一段时间内收集......所以在一些收集它之间哪个最便宜某种日志文件与在数据库中收集并在需要时将其导出

4

1 回答 1

1

Mahout 的推荐代码可以直接从数据库或文件中读取——如果数据格式合理的话。它不会读取一般日志文件;它们需要被翻译成简单的 CSV 或 TSV。但它几乎可以读取任何包含用户/项目/首选项的表。

如果您已经将数据放入数据库表中,我会说把它留在那里,不要复制它或不必要地导出它。如果可能的话,您可能希望 Mahout 将所有这些内容吸进内存。

如果您还没有存储这些数据,并且想要选择一种简单有效的表示,那么我建议您提取用户/项目/偏好信息并将它们存储在简单的 CSV 文件中,使用 gzip 压缩。这些也可以很容易地与 Mahout 一起使用,并且比完整的日志文件或数据库更简单、更紧凑。

于 2010-07-20T10:04:23.663 回答