python - Python 中的缓存选项或加速 urlopen

Question

大家好，我有一个为最终用户查找信息的网站，它是用 Python 编写的，并且需要几个 urlopen 命令。因此，加载页面需要一些时间。我想知道有没有办法让它更快？有没有一种简单的 Python 缓存方法或一种让 urlopen 脚本最后变得有趣的方法？

urlopens 访问 Amazon API 以获取价格，因此该站点需要保持最新状态。我能想到的唯一选择是制作一个脚本来制作一个 mySQL 数据库并不时运行它，但这会很麻烦。

谢谢！

score 3 · Accepted Answer

httplib2 理解 http 请求缓存，在一定程度上抽象了 urllib/urllib2 的混乱，并有其他好东西，比如 gzip 支持。

但是除了使用它来获取数据之外，如果数据集不是很大，我还会实现某种功能缓存/记忆。示例： http ://wiki.python.org/moin/PythonDecoratorLibrary#Memoize

修改该装饰器以允许基于时间的到期并不难，例如仅将结果缓存 15 分钟。

如果结果更大，则需要开始查看 memcached/redis。

score 1 · Accepted Answer

您可以做几件事。

score 0 · Accepted Answer

如果您需要一次从多个站点抓取，您可以尝试使用 asyncore http://docs.python.org/library/asyncore.html

这样您就可以轻松地一次加载多个页面。

score 0 · Accepted Answer

您可以使用 memcached。它就是为此而设计的，这样您就可以轻松地与不同的程序/脚本共享缓存。从 Python 中使用它真的很容易，请检查：

然后，当密钥不存在时以及从某个 cron 脚本中更新 memcached，您就可以开始了。

另一个更简单的选择是自己制作缓存，可能将数据存储在字典中和/或使用 cPickle 将其序列化到磁盘（如果您希望数据在不同运行之间共享）。

score 0 · Accepted Answer

价格多久变化一次？如果它们非常稳定（比如每天一次，或者每小时左右一次），只需继续编写一个 cron 脚本（或等效的）来检索值并将其存储在数据库或文本文件或您需要的任何内容中.

我不知道您是否可以检查来自 Amazon API 的时间戳数据——如果他们报告了这类事情。

5 回答 5