如果你不知道 meme 是什么意思,你可以阅读这篇文章 readwriteweb
我的问题是如何创建一个 meme 算法,我有一个网站,汇集了数千篇博客文章,我想找出最受关注的故事。
从上面的文章中看到这个引用
“模因聚合试图通过找出最受关注的新闻(因此,希望是最重要的)来降低信噪比。”
有谁知道如何做到这一点?,
他们有简单的教程吗?
因为我数学不太好。
谢谢
如果你不知道 meme 是什么意思,你可以阅读这篇文章 readwriteweb
我的问题是如何创建一个 meme 算法,我有一个网站,汇集了数千篇博客文章,我想找出最受关注的故事。
从上面的文章中看到这个引用
“模因聚合试图通过找出最受关注的新闻(因此,希望是最重要的)来降低信噪比。”
有谁知道如何做到这一点?,
他们有简单的教程吗?
因为我数学不太好。
谢谢
没有“正确”的方式来做这样的事情。有不同的方法可以实现这一点,您需要选择一种可以实现/运行并以您喜欢的方式运行的方法。从你理解的简单的事情开始,然后从那里开始。
例如:
Ben Reeves 建议“(带有特定标签的博客文章数量/博客文章总量)”和 pagerank 方法。如果这些以适合您的方式选择主题,请与他们一起去。
这里有几个其他的建议,
您可以根据托管网站的受欢迎程度为帖子添加权重。例如,发布在纽约时报上的内容可能应该被认为比 Joe Shmoes 博客上的内容更受欢迎,并且应该获得更多的权重。这类似于页面排名方法,在实践中可能几乎没有区别。
您可以添加时间因素,因此主题的发布速度有多快很重要。例如,如果主题 B 从上周有 30 个帖子,而主题 C 从今天有 10 个帖子,您可能希望认为主题 C 更受欢迎。如果主题 D 在过去一年中每周有 2 个帖子怎么办?过去一小时有 5 个帖子的主题 E 怎么样?
获取 T. Segaran 的《编程集体智能》一书
http://shop.oreilly.com/product/9780596529321.do
它介绍并很好地解释了流行度和排名算法的关键概念,并在 Python 中提供了全面的示例。
变量:
计算内容出现的次数。如果它发生得足够频繁,那么它就符合条件。它也需要最近发生,否则计数不相关。内容需要很好地相关以避免误报。
看看雅虎上下文搜索和关键字 API 供初学者使用。
假设您想找到最受欢迎的主题?实际计算可能很简单,但是需要处理的数据量会很大。
(带有特定标签的博文数量/博文总量)=标签的流行度
显然,您需要一个要忽略的常见标签/单词列表
然后与该标签相关的最受欢迎的帖子 =包含该标签的其他帖子中最常链接的博客帖子。
此外,更复杂的是,您可以使用 pagerank 样式计算来计算链接的权重。http://www.webworkshop.net/pagerank.html - 这实际上是随机浏览时您将登陆特定页面的概率,即最受欢迎的页面
/我的 2 美分