Reddit API提供任何给定帖子的分数信息,包括赞成票数、反对票数和总分。我想使用这些信息对故事标题进行一些分析,并最终分析故事链接到的内容(自我帖子、博客文章等),以尝试预测哪些帖子会受欢迎,哪些帖子会失败。
Reddit 的 API 提供了从任何给定的 subreddit(包括 r/all)轻松访问得分最高的帖子的方法,但没有一种简单的方法可以找到低分的帖子,特别是考虑到有不同类型的低分。
例如,您可能有一个新的故事,它有 0 次上涨、0 次下跌和 0 分。这个故事是失败的吗?不必要。这只是新的。然而,由于 Reddit 的工作方式,一个故事可能有 0 次上涨、50 次下跌和 0 分。这篇文章很可能是可恶的、垃圾邮件或其他旨在攻击的内容。我认为我需要区分这两种类型的故事以获得更准确的表示。
我希望前 10% 和最低 10% 的故事得分明智,所以如果你知道一种方法来查找提交给 subreddit 的故事总数,我很想听听!
寻找得分低的故事的最佳方法是什么?我是否应该从头版开始并使用蛮力算法,检查每个故事的起伏和得分,直到我有足够的数据?我还需要考虑哪些其他变量?