伙计们,我有一堆有标题和摘要的文件(大约 200k)。每个文档还有其他可用的元数据,例如类别 - (只有烹饪、健康、锻炼等之一)、类型 - (只有幽默、动作、愤怒之一)等。元数据结构良好,所有这些都是可用的在 MySql 数据库中。
当她在我们的网站上阅读这些文档之一时,我需要向我们的用户展示相关文档。我需要为产品经理提供标题、摘要和元数据的权重,以试验这项服务。
我计划在这些数据之上运行聚类,但由于所有 Mahout 聚类示例都使用基于数字的DenseVectors或基于 Lucene 的文本矢量化这一事实而受到阻碍。
这些示例要么仅为数字数据,要么仅为文本数据。以前有没有人解决过这种问题。我一直在阅读 Mahout in Action 一书和 Mahout Wiki,但没有取得多大成功。
我可以从第一原则做到这一点——将所有标题和摘要提取到数据库中,计算 TFIDF 和 LLR,将每个单词视为一个维度,并通过大量代码编写来进行这个实验。这似乎是一个漫长的解决方案。
简而言之,这就是我被困的地方——我是注定要遵循第一原则,还是存在我以某种方式错过的工具/方法。我很想听听那些解决过类似问题的人的意见。
提前致谢