0

客人有一个网站A有一个合作伙伴计划。
合作伙伴网站B具有指向A 的链接。
我需要以一定的频率(每天两次)检查所有合作伙伴网站(5000 个网站)的所有网页,并提取从BA 的所有链接。然后我必须用正则表达式检查 url 是否以某种方式构建。

我可以用 PHP 轻松做到这一点,但是第三方解决方案可能已经面临一些严重的挑战

  • 我想利用带宽使用
  • 我希望尽快完成任务
  • 要检查的网页可能是业余网页充满错误和不一致的 html
  • 我只想管理自上次检查后发生更改的网页
  • 该过程必须自动化(cron?或替代方案?)
  • ...
  • (请随意扩展此列表)

但是我不想构建一个超级超级超级复杂的工具……
我仍然想要一个小巧轻便的聪明解决方案。

你将如何解决这样的任务?

4

1 回答 1

0
 - I want to leverage bandwith usage
 - I want the task to be done the fastest possible
 - The webpages to check could amateurs web pages full of errors and inconsistent html
 - I'd like to manage only webpages that are changed since the last time I checked them the process has to be automated (cron? or alternatives?)
 - (feel free to expand this list)

这些是一些相当高的要求。

But I don't want to build a *super-duper-mega-ultra-sophisticated-that-does-everithing-and-more-tool*...

哦,好吧,那没问题......既然你这么说,我想我们已经把它缩小到一个超级超级超级复杂的工具,它不是一个超级超级超级超级复杂的万能和更多工具

撇开玩笑不谈,没有很多工具能够完成您所描述的工作。但是,有一些非常强大的工具可以为您提供实现目标的良好框架。您提到了 PHP,但我认为您将在 Java 世界中取得更大的成功。特别是,我建议您查看Nutch

我希望这会有所帮助:)。

于 2012-02-02T22:40:59.563 回答