-3

我想用 PHP 构建一个网络爬虫,但我仍然对此感到困惑。我还没有找到可以工作的教程。

谁能帮助我如何使用 PHP 构建爬虫?

4

3 回答 3

2

你也可以从这个 php 开源 sphider php 搜索引擎开始

于 2013-06-10T13:43:27.587 回答
2

构建网络爬虫涉及打开页面、解析它们以获取您想要的数据以及指向其他页面的链接,然后跟踪这些链接。对于阅读页面,您需要查看fopen()函数。对于解析页面(包括识别链接),您需要查看正则表达式

于 2013-06-10T13:35:52.070 回答
2

首先,你应该问自己这个爬虫是如何工作的?

PHP 的典型用途是动态准备网页(例如,在 HTML 代码中)。PHP 生成 HTML 代码,服务器将准备好的文档发送给用户。这是在用户请求时完成的。通常,当用户打开您的页面时,您的网络爬虫就会运行,我认为这没有任何意义,因为它需要太多时间来爬取并且用户必须等待。

还有另一种可能性,即您想要抓取页面的某些部分。在这种情况下,您可以将内容存储在某个数据库中并使用 PHP 来查询数据库。但这不是爬虫,因为 db engine 已经索引了所有的内容,可以找到你需要的一切。

第三种方式是从命令行(Windows 和 Linux)运行 PHP 程序的可能性,这样爬虫将由您而不是用户运行。有关如何实现此目的的更多信息,请参阅quinxorin 的回答。这个答案很短,因为主题很广泛。

也可以编译 PHP 程序

在我看来,如果你是初学者,最好不要从这么大的任务开始。首先,尝试学习如何用PHP制作简单的网页,然后您将学习如何制作爬虫。

于 2013-06-10T13:48:56.713 回答