-1

I believe I have a rather unique question. Or at least I was unable to find a solution to a similar problem.

I want to crawl a website and then on each page I want to search for a particular text string. If the text string is found I want to download all files of a specific type (PDF) that are linked to that page.

I would appreciate a complete answer but if anybody could just point me in the direction of the necessary software or framework that could to accomplish this it would be greatly appreciated.

4

3 回答 3

2

您可以简单地使用 wget 命令

wget -r --accept=mkv,mp3 --tries=10 http://www.rootofwebsite.test/base_url -o log
于 2016-12-21T09:08:27.620 回答
1

我将 Python 与 urllib 和pyQuery(类似于 jQuery)一起使用,但也有一些特殊的框架用于爬取和抓取,例如Python 中的Scrapy

搜索网页抓取。

于 2013-07-10T03:45:59.200 回答
0

没有直接的软件可以一次性做到这一点,除非您是谷歌或雅虎的所有者,他们可以并且定期抓取网站。

无论如何,除了玩笑之外,只需一点编程,您就可以轻松做到这一点。不需要任何框架或任何类似的东西。

你会需要:

  1. 任何 LAMPP 包 XAMP、WAMP。

  2. CURL 获取页面

  3. 正则表达式解析页面。(正则表达式好友

  4. wget 下载文件或任何你想下载的东西。

您可以通过在 Google 上进行简单搜索轻松地检查其中的每一项。Curl 将帮助您获取 html 文件并将它们作为字符串存储在变量中。接下来,您可以使用 PHP 中的 preg_match 或 ereg_match 函数来查找确切的字符串,如果存在,则向 wget 发送系统调用以下载文件。链接的网站有一个软件可以帮助您获得大量关于正则表达式(regex)的信息,

于 2013-07-10T03:42:07.943 回答