我习惯于创建一些爬虫来编译信息,当我来到一个网站时,我需要这些信息,我为该站点启动了一个新的爬虫,大部分时间使用 shell 脚本,有时使用 PHP。
我的做法是for
对页面列表进行简单的迭代,下载wget
它和sed
,或其他实用程序来清理页面并获取我需要的特定信息。tr
awk
所有过程都需要一些时间,具体取决于站点以及下载所有页面的更多时间。而且我经常进入一个让一切变得复杂的 AJAX 网站
我想知道是否有更好的方法来做到这一点,更快的方法,甚至是一些应用程序或语言来帮助这样的工作。