2

我对 Python 非常陌生,阅读了大约一半的 Python3 初学者书籍。我认为这样做会让我开始学习我真正想做的事情,而不是通过一些“无聊”的练习。

我想构建一个应用程序,它会从 Reddit 中获取顶级 URL,然后将它们发布到我自己的页面上。它每天只会检查几次,所以这里根本没有锤击。

我想将 Reddit json (http://www.reddit.com/.json) 和其他 subreddit json 解析为 URL,我可以将它们组织到我自己的顶部列表中,并且在我的页面上也有我自己的类别,所以我不不必继续访问 Reddit。

该网站将是一个 Wordpress 模板,其数据库托管在它自己的服务器 (mysql) 上。我将在 AWS 上使用 RDS、ELB、Auto-scaling 和 EC2 实例在 Web 服务器上托管它。

我的问题是:

- 让 Python 抓取应用程序在它自己的服务器上运行是否有意义,然后将抓取的 URL 写入数据库?

-我听说拆分应用程序可能有意义,一个读,另一个写,这是怎么回事?

- Python 代码的流程会是什么样子?我可以摸索着写它,但我只是不完全确定它应该如何流动。

-还有什么我没有想到的,有什么建议吗?

4

1 回答 1

2

让 Python scraper 应用程序在它自己的服务器上运行,然后将抓取的 URL 写入数据库是否有意义?

是的,这是个好主意。我会设置一个 cron 作业来经常运行该程序。根据您期望的负载,它不一定需要在自己的服务器上。我会把它作为自己的应用程序。

我听说拆分应用程序可能有意义,一个读,另一个写,这是怎么回事?

我假设说这句话的人意味着你应该有一个应用程序来写入你的数据库(你的 python 脚本)和一个应用程序来从数据库中读取 URL(你的 WordPress 包装器,或者可能是另一个 Python 脚本来编写 WordPress 可以理解的东西)。

Python 代码的流程会是什么样子?我可以摸索着写它,但我只是不完全确定它应该如何流动。

这在程序员之间有点宗教问题。但是我觉得你的程序应该足够简单。如果条目尚不存在,我将简单地获取 JSON 并有一个插入数据库的查询。

还有什么我没有想到的,任何提示?

我个人会为 Python 脚本使用 urllib2 和 MySQLdb 模块。祝你好运!

于 2012-10-23T22:35:50.013 回答