1

我需要为我的大学项目创建一个像 Google Reader 这样的网络工具。

我有两个问题:

1)谷歌阅读器如何跟踪已读和未读帖子?

2)谷歌阅读器将每篇文章保存在数据库中或现在加载提要?

4

4 回答 4

3
  1. 为单个提要帖子分配散列(即日期+url+??? = 散列以识别单个帖子)
  2. 我的猜测是动态加载它们,也许每个用户缓存的数量有限。
于 2010-10-13T00:09:58.937 回答
2

关于 #2:Google 有一个特殊的 RSS 爬虫机器人,称为FeedFetcher。当您请求 RSS 提要时,它会被分派以检索它,并将提要存储到由 URL 标识的全局(所有用户)缓存中。下次请求提要时(即使是不同的用户 - 只要 URL 匹配),它就会从缓存中加载。

我不确定缓存失效机制是什么,但爬虫绝对不会像响应Cache-Control机制所指示的那样频繁地重新访问提要(这可能是一件好事,因为许多生成的 RSS 提要发送no-cache虽然它们没有改变太频繁)。不过,这个内部缓存似乎不会持续超过几个小时。

(这些是我前段时间从我的 RSS 提要访问日志中提出的假设;我仍然认为它们是有效的,因为从那以后我没有看到爬虫的行为有任何重大变化)

于 2010-10-13T13:06:42.327 回答
2

不确定现在是否有帮助,但对于其他路过的人,我用详细的设计记下了我的想法:

设计一个可扩展的谷歌阅读器克隆

于 2011-02-11T12:16:22.007 回答
0

您在车上使用Selfoos新的多功能 rss 阅读器、直播、混搭、聚合 Web 应用程序。

特征:

  • 基于网络的 RSS 阅读器
  • 通用聚合器
  • 开源和免费
  • 使用开放式插件系统轻松扩展(编写您自己的数据连接器)
  • 移动支持(Android、iOS、iPad)
  • 使用 selfoss 直播并在一个地方收集您的所有帖子、推文、提要
  • 小于 2 MB 的轻量级 PHP 应用程序
  • 支持 MySQL、PostgreSQL 和 Sqlite 数据库
  • OPML 导入
  • 安装简单:上传并运行
  • 带有宁静的 json api

网址http ://selfoss.aditu.de/

GitHubhttps ://github.com/SSilence/selfoss

于 2013-11-19T08:09:50.500 回答