3

我正在构建一个 Web 应用程序,我需要使用一种允许我在两台服务器上运行它的架构。该应用程序定期从其他站点抓取信息,并根据最终用户的输入。为此,我使用 Php+curl 来抓取信息,使用 Php 或 python 来解析它并将结果存储在 MySQLDB 中。

然后我将使用 Python 对数据运行一些算法,这将定期发生,也发生在最终用户的输入上。我将在 MySQL 数据库中缓存一些结果,有时如果它是特定于用户的,则跳过存储数据并将其提供给用户。

我想在单独的 Web 服务器上使用 Php 作为网站前端,在另一台服务器上运行 Php 蜘蛛、MySQL DB 和 python。

我应该为这种工作使用什么框架?MVC 和 Cakephp 是一个好的解决方案吗?如果是这样,我将能够使用它来控制和监视 Python 代码吗?

谢谢

4

2 回答 2

2

如何实施呢?

太大的问题在这里无法回答。当然,除了增加的复杂性之外,您不希望有 2 组代码用于抓取(1 组用于计划,1 组用于需求),您真的不希望在线程中运行需要无限时间才能完成的作业由对您的网络服务器的请求生成 - 用户对抓取的请求应通过调度机制运行并报告给用户(尽管如有必要,您可以使用 Ajax 轮询来产生它发生在同一个线程中的错觉)。

我应该使用什么框架?

框架不是灵丹妙药。而且您不应该主要根据您正在编写的应用程序的性质来选择框架。当然,如果特定框架排除了特定的关键功能,那么您使用的框架是错误的——但根据我的经验,从未出现过这种情况——您只需要自己编写一些代码。

使用比 cron 作业更复杂的东西

是的,由于很多原因,cron 作业可能不是正确的方法。如果是我,我会考虑编写一个守护进程来安排抓取(并接受来自网页脚本的连接以将额外的抓取排入队列)。但我会将刮擦作为单独的进程运行。

MVC 是一个很好的架构吗?(我是 MVC、架构等方面的新手)

不。不要从思考模式是否适合应用程序开始 - 模式是一种有用的教学工具,但描述的是什么代码不是它将什么

(您的应用程序可能包含一些 MVC 模式 - 但它也应该包含许多其他模式)。

C。

于 2010-06-11T11:43:36.097 回答
1

我认为您已经对如何组织图层有了清晰的想法。

首先,您的前端需要一个 Web 框架。
您在这里有很多选择,Cakephp afaik 是一个不错的选择,它旨在迫使您遵循MVC设计模式。
然后,您需要设计您的数据库来存储用户想要被抓取的内容。
您的 Web 应用程序将访问您的数据库以存储用户请求,您的 php 脚本将访问您的数据库以了解要抓取的内容,最后您的 python 批处理将向用户确认请求的数据可用。

一个可能过于简化的场景:

  1. 用户注册到您的网站
  2. 从维基百科抓取随机页面的用户命令
  3. 请求通过 CakePhp 应用程序存储到 db
  4. Cron php 批处理启动并检查数据库是否有新请求
  5. Batch 从 Wikipedia 找到新请求和抓取
  6. 使用刮掉的标志批量更新数据库
  7. Cron python 批处理启动并检查 db 是否有新的刮掉标志
  8. Batch 发现新的抓取标志并解析 Wikipedia 以提取一些标签
  9. 使用完成标志批量更新数据库
  10. 用户在他的个人资料中找到了所请求的信息。
于 2010-06-11T10:48:35.553 回答