0

我只是需要澄清一下这个概念是否可行,或者我是否误解了爬虫的能力。

假设 1 有一个包含 100 个网站/博客的列表,并且每天,我的程序(我假设它是一个爬虫的东西)将通过它们,如果有一些特定的短语匹配,如“迈阿密热火”或“勒布朗詹姆斯”,它将继续下载该页面->将其转换为带有全文/图像的pdf并保存该pdf。

所以我的问题是;

  1. 这种事情是可能的吧?请注意,我不想要只是文本片段,但我希望让整个页面就像打印在一张纸上一样?
  2. 这种类型的程序被称为爬虫吧?
  3. 我计划在http://phpcrawl.cuab.de/about.html的代码上构建
4

2 回答 2

1

这是完全可能的,因为您将使用 phpcrawl 来抓取网页,使用wkhtmltopdf将您的 html 转换为 pdf,因为它是

  1. 是的,通过使用 wkhtmltopdf 工具,您可以按原样转换网页。它是基于桌面的软件,因此您可以安装在您的机器中
  2. 是的,爬行者。
  3. 它是构建您想要构建的东西的完美工具。
于 2012-11-26T19:14:15.927 回答
0
  1. 是的,有可能。

  2. 您可以将其称为爬虫或刮板,因为您正在从网站上抓取数据。

将网站呈现为 PDF 可能是最困难的部分,它们是可以为您执行此操作的 Web 服务。

例如

http://pdfmyurl.com/

(我没有隶属关系,也从未使用过它们,当我检查时它只是谷歌结果中的第一个站点)

于 2012-11-26T19:14:46.183 回答