我有大约 3000 个文本文档,这些文档与文档“有趣”的持续时间有关。因此,假设文档 1 有 300 行带有内容的文本,这导致感兴趣的持续时间为 5.5 天,而另一个具有 40 行文本的文档导致 6.7 天的持续时间是“有趣的”,依此类推。
现在的任务是根据文本内容预测感兴趣的持续时间(这是一个连续值)。
我有两个想法来解决这个问题:
- 使用http://radimrehurek.com/gensim/simserver.html之类的技术构建类似文档的模型。当一个新文档到达时,可以尝试找到过去 10 个最相似的文档,并简单地计算它们的持续时间的平均值,并将该值作为对新文档感兴趣的持续时间的预测。
- 将文件按持续时间分类(例如 1 天、2 天、3-5 天、6-10 天……)。然后训练一个分类器根据文本内容预测持续时间的类别。
想法 #1 的优点是我还可以计算预测的标准偏差,而对于想法 #2,我不太清楚如何计算类似的预测不确定性度量。我也不清楚选择哪些类别才能从分类器中获得最佳结果。
那么是否有经验法则如何构建一个系统来最好地预测文本文档中的连续值(如时间)?应该使用分类器还是应该使用在相似文档上使用平均值的方法?我在这方面没有真正的经验,我想知道,您认为哪种方法可能会产生最好的结果。如果您知道可用于解决此问题的简单现有技术(基于 Java 或 Python),则会给予奖励。