python - 阅读 RSS 提要：聚合器所做的我不是

Question

我将以下提要放入 Google 阅读器，它会正常更新。

http://www.indeed.ca/rss?q=&l=Hamilton%2C+ON

但是，当我使用网络上建议的许多方法中的任何一种时，这些方法仅涉及从该源读取并解析 XML，我会收到相同的 20 项。

谷歌阅读器在做什么，我应该在我的代码中，以便我收到新项目？

谢谢你的建议。顺便说一句，我正在用 Python 编写代码。

score 3 · Accepted Answer

RSS 聚合器“轮询”源，即，它们定期对每个源重复 HTTP 查询，并检查结果中是否出现任何新内容。这是不幸的，因为投票总是如此，因为它在无休止的“我们到了吗？”系列中浪费资源。问题（有点像带一个蹒跚学步的孩子在长途汽车中行驶；-），但仍然意味着延迟（如果您每小时轮询给定的来源，例如，您将等待长达一个小时才能看到一些结果）。

不幸的是，在 RSS 架构本身中，没有其他选择，没有办法在新内容出现时要求“回调”或选择更明智的“发布-订阅架构”。

一个很好的补救措施是pubsubhubbub，但它不可避免地需要来自 RSS 源和聚合器的合作（在 RSS 标准之上和之外）——所以它需要非常广泛的参与才能被称为问题的“解决方案”，不过，从技术上讲，它已经是（对于合作站点；-）。

所以回到你的问题，你没有做错任何事：你只需要像 RSS 聚合器那样定期轮询，以便最终看到新的结果。

score 0 · Accepted Answer

1) 您是否尝试过使用其他 RSS 提要？

2）如果是这样，这听起来像是某种缓存......你在某个代理后面吗？

python - 阅读 RSS 提要：聚合器所做的我不是

2 回答 2

Related

Reference