我只是需要澄清一下这个概念是否可行,或者我是否误解了爬虫的能力。
假设 1 有一个包含 100 个网站/博客的列表,并且每天,我的程序(我假设它是一个爬虫的东西)将通过它们,如果有一些特定的短语匹配,如“迈阿密热火”或“勒布朗詹姆斯”,它将继续下载该页面->将其转换为带有全文/图像的pdf并保存该pdf。
所以我的问题是;
- 这种事情是可能的吧?请注意,我不想要只是文本片段,但我希望让整个页面就像打印在一张纸上一样?
- 这种类型的程序被称为爬虫吧?
- 我计划在http://phpcrawl.cuab.de/about.html的代码上构建