0

Reddit API提供任何给定帖子的分数信息,包括赞成票数、反对票数和总分。我想使用这些信息对故事标题进行一些分析,并最终分析故事链接到的内容(自我帖子、博客文章等),以尝试预测哪些帖子会受欢迎,哪些帖子会失败。

Reddit 的 API 提供了从任何给定的 subreddit(包括 r/all)轻松访问得分最高的帖子的方法,但没有一种简单的方法可以找到低分的帖子,特别是考虑到有不同类型的低分。

例如,您可能有一个新的故事,它有 0 次上涨、0 次下跌和 0 分。这个故事是失败的吗?不必要。这只是新的。然而,由于 Reddit 的工作方式,一个故事可能有 0 次上涨、50 次下跌和 0 分。这篇文章很可能是可恶的、垃圾邮件或其他旨在攻击的内容。我认为我需要区分这两种类型的故事以获得更准确的表示。

我希望前 10% 和最低 10% 的故事得分明智,所以如果你知道一种方法来查找提交给 subreddit 的故事总数,我很想听听!

寻找得分低的故事的最佳方法是什么?我是否应该从头版开始并使用蛮力算法,检查每个故事的起伏和得分,直到我有足够的数据?我还需要考虑哪些其他变量?

4

1 回答 1

0

寻找得分低的故事的最佳方法是什么?

reddit的搜索功能很可能是您通过 subreddit 或一组 subreddit 查找低分提交的最佳选择。不幸的是,指数中似乎既没有得分,也没有投票数(上升或下降)。也许如果你在/r/redditdev上问这个问题,你可能会从/u/kemitche得到一个有利的答案。

我是否应该从头版开始并使用蛮力算法,检查每个故事的起伏和得分,直到我有足够的数据?

您可能还想联系/u/Deimorz,因为 Deimorz 已经这样做了 [ 1 , 2 ] 并且可能能够为您提供问题的答案。

我希望前 10% 和最低 10% 的故事得分明智,所以如果你知道一种方法来查找提交给 subreddit 的故事总数,我很想听听!

不幸的是,如果没有随着时间的推移监控所有提交到 subreddit 的提交,或者追溯尝试爬取 reddit 的所有提交(正如 Deimorz 所做的那样),唯一可能的方法是直接询问 reddit 管理员。

于 2012-11-10T14:29:46.100 回答