问题标签 [phpcrawl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 任何人都使用过 PHP API 来读取“Nutch 搜索引擎”的抓取结果?
我已经设置了“Nutch 搜索引擎”来抓取网站。现在,我需要编写一个 php API 来与 Nutch 搜索引擎对话。我需要做两件事:
使用 PHP 脚本,我需要向 Nutch 指定要抓取的 URL(为此,我有一些来自 http://www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2的指针.html
使用 PHP 脚本,我需要从 Nutch 抓取数据库中检索抓取结果。我似乎找不到任何帮助(或者如果答案已经存在,我可能太笨了,看不到答案:()
如果有人使用 PHP API 读取 Nutch 抓取结果,请与我分享一些指针。
绝望地等待一些帮助。
php - PHPCrawl 有时会空手返回
我正在使用PHPCrawl类来蜘蛛网站并构建链接列表。这一切都很好,如果缓慢的话,然后我会使用这些链接来执行其他任务。
我遇到了一个问题,我第一次运行脚本时它没有结果完成,然后下次运行它时它按预期工作。大约 30% 的时间都失败了。
起初我以为这是网络或工作站问题,但同样的问题发生在使用不同 ISP 的不同位置的不同机器上。
有没有其他人使用过这个类并遇到同样的问题?
php - Are there any free php crawlers?
In the past I have used my own crawler, but now I need something more robust and I was wondering if there were any good free php crawlers?
automation - 计算站点中的页面数
我想知道一个站点中有多少个公共页面,例如,smasingmagzine.com。有没有办法计算页数?
php - PHP中的单页网页抓取
我是 PHP 新手。有人可以帮我弄清楚如何抓取单个 html 页面并打印该页面源代码中的所有单词吗?
php - 实例化一个新的 PHPCrawl 类会引发错误“调用未定义的方法 stdClass::receivePage()”
我使用 foreach 循环遍历多个种子 URL。在每个循环中,我使用 PHPCrawl 和下一个种子 URL 实例化一个爬虫。
它在第一个循环中运行良好,但在完成任何爬网之前第二次抛出以下错误:
我没有以任何方式修改原始的 PHPCrawl V0.70 类。如 PHPCrawl 文档中所述,我只扩展了 PHPCrawler 类并将过程代码添加到 handlePageData() 函数。如果我在没有 foreach 循环的情况下运行它(一次用新的 url 实例化一个新类),系统工作正常。
请帮忙!!
php - 使用爬虫从页面中获取某些数据
我正在寻找使用爬虫从网站获取数据,我发现 如何在 PHP 中制作简单的爬虫?这很有帮助,但我希望使用http://findpeopleonplus.com/上的代码从页面中获取所有 google plus 链接。
我将在此处粘贴代码以供参考:
php - PHP网络爬虫,数据结构和存储,它可以与PHPCrawl一起使用吗?
如果还有其他编写的类来执行此操作,那么链接会很棒。如果没有,我怎么能用 PHPCrawl 做到这一点?
是否可以根据特定于站点的一组规则存储来自已爬网站点的特定信息?例如,[div.wantThis, img#defaultPicture]
是否为站点 A 返回了数组,并且只[div.shortTextContent]
为站点 B 返回了数组?
在 PHPCrawl 中,如何从$page_data
数组中获取这些信息?
需求
必须只能针对某些元素。
能够从变量(可以是指定要定位的元素的数组)中读取数据存储规则。
php - 如何使用 phpcrawl 类的 setTmpFile() 方法?
我正在使用这个 WebCrawler 类http://phpcrawl.cuab.de。有一个名为“setTmpFile()”的方法http://phpcrawl.cuab.de/classreference.html#settmpfile。我想知道如何使用这种方法?请给我一些很好的例子。
phpcrawl - PHPcrawler - tmp 文件
我下载了最新版本的phpcrawler
,我可以访问我自己的测试网站。
我在这个网站上只有一张图片和一些文字,我运行了爬虫,我收到了减去图片的文字,因为我做了正确的$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");
我无法保存tmp文件它没有将唯一的tmp文件保存在我运行爬虫的文件夹中,我试图保存命名文件但没有运气。
我确实在所有 php 文件的不同行上遇到了许多折旧错误,例如:@fopen
,@
不同区域的原因问题。我用PHP
也可以Regex
。大卫。