algorithm - 如何创建 MEME 算法？

Question

如果你不知道 meme 是什么意思，你可以阅读这篇文章 readwriteweb

我的问题是如何创建一个 meme 算法，我有一个网站，汇集了数千篇博客文章，我想找出最受关注的故事。

从上面的文章中看到这个引用

“模因聚合试图通过找出最受关注的新闻（因此，希望是最重要的）来降低信噪比。”

有谁知道如何做到这一点？，

他们有简单的教程吗？

因为我数学不太好。

谢谢

score 0 · Accepted Answer

没有“正确”的方式来做这样的事情。有不同的方法可以实现这一点，您需要选择一种可以实现/运行并以您喜欢的方式运行的方法。从你理解的简单的事情开始，然后从那里开始。

例如：

Ben Reeves 建议“（带有特定标签的博客文章数量/博客文章总量）”和 pagerank 方法。如果这些以适合您的方式选择主题，请与他们一起去。

这里有几个其他的建议，

您可以根据托管网站的受欢迎程度为帖子添加权重。例如，发布在纽约时报上的内容可能应该被认为比 Joe Shmoes 博客上的内容更受欢迎，并且应该获得更多的权重。这类似于页面排名方法，在实践中可能几乎没有区别。

您可以添加时间因素，因此主题的发布速度有多快很重要。例如，如果主题 B 从上周有 30 个帖子，而主题 C 从今天有 10 个帖子，您可能希望认为主题 C 更受欢迎。如果主题 D 在过去一年中每周有 2 个帖子怎么办？过去一小时有 5 个帖子的主题 E 怎么样？

score 0 · Accepted Answer

获取 T. Segaran 的《编程集体智能》一书

它介绍并很好地解释了流行度和排名算法的关键概念，并在 Python 中提供了全面的示例。

score 0 · Accepted Answer

变量：

计算内容出现的次数。如果它发生得足够频繁，那么它就符合条件。它也需要最近发生，否则计数不相关。内容需要很好地相关以避免误报。

看看雅虎上下文搜索和关键字 API 供初学者使用。

score 0 · Accepted Answer

假设您想找到最受欢迎的主题？实际计算可能很简单，但是需要处理的数据量会很大。

（带有特定标签的博文数量/博文总量）=标签的流行度

显然，您需要一个要忽略的常见标签/单词列表

然后与该标签相关的最受欢迎的帖子 =包含该标签的其他帖子中最常链接的博客帖子。

此外，更复杂的是，您可以使用 pagerank 样式计算来计算链接的权重。http://www.webworkshop.net/pagerank.html - 这实际上是随机浏览时您将登陆特定页面的概率，即最受欢迎的页面

/我的 2 美分

4 回答 4