我需要为我的大学项目创建一个像 Google Reader 这样的网络工具。
我有两个问题:
1)谷歌阅读器如何跟踪已读和未读帖子?
2)谷歌阅读器将每篇文章保存在数据库中或现在加载提要?
我需要为我的大学项目创建一个像 Google Reader 这样的网络工具。
我有两个问题:
1)谷歌阅读器如何跟踪已读和未读帖子?
2)谷歌阅读器将每篇文章保存在数据库中或现在加载提要?
关于 #2:Google 有一个特殊的 RSS 爬虫机器人,称为FeedFetcher。当您请求 RSS 提要时,它会被分派以检索它,并将提要存储到由 URL 标识的全局(所有用户)缓存中。下次请求提要时(即使是不同的用户 - 只要 URL 匹配),它就会从缓存中加载。
我不确定缓存失效机制是什么,但爬虫绝对不会像响应Cache-Control
机制所指示的那样频繁地重新访问提要(这可能是一件好事,因为许多生成的 RSS 提要发送no-cache
虽然它们没有改变太频繁)。不过,这个内部缓存似乎不会持续超过几个小时。
(这些是我前段时间从我的 RSS 提要访问日志中提出的假设;我仍然认为它们是有效的,因为从那以后我没有看到爬虫的行为有任何重大变化)
不确定现在是否有帮助,但对于其他路过的人,我用详细的设计记下了我的想法:
您在车上使用Selfoos新的多功能 rss 阅读器、直播、混搭、聚合 Web 应用程序。
特征: