问题标签 [phpcrawl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
99 浏览

web - 我如何从一个网站获取所有的网络链接?

我想获取 website 中可用的所有链接(网络帖子)。而且,如果将任何新帖子添加到网站上,我应该能够获得链接。我将列出 10 个网站,并且需要定期运行链接提取过程。

有人可以帮助我如何仅获取帖子链接和添加的新帖子链接。

0 投票
0 回答
147 浏览

php - PHPCrawl cookies / 密码认证

我有一个关于 PHPCrawl 的问题,用于抓取我有密码的受密码保护的网站。

所以,我有适用于不需要身份验证的网站的爬虫。我从终端执行的爬虫(ubuntu 14.04)。但是当我尝试在需要用户名和密码的网站上使用它时,它不起作用。我试过PHPCrawl->addBasicAuthentication但没有帮助。然后,我有了以下想法 - 从浏览器调用爬虫,首先我打开一个标签,在其中打开我要爬的网站并登录。

但我假设 PHPCrawl 不知道身份验证会话。所以,我的问题是:有没有人知道如何让 PHPCrawl 知道我已登录并毫无问题地抓取网站?

0 投票
1 回答
990 浏览

php - 浏览亚马逊畅销书页面

我正在尝试浏览亚马逊畅销书页面,该页面列出了前 100 名畅销书商品,每页有 20 件商品。在每个循环中,$i 值都会更改并附加到 URL。但是只有前 20 个项目被显示了 5 次,我认为这与 ajax 分页有关,但我无法弄清楚它是什么。

0 投票
1 回答
374 浏览

php - 使用 PHPCrawler 爬取时 https 主机无法访问

当尝试使用 https 协议爬取网站时,PHPCrawler 返回错误,说

但是,它确实使用http://协议抓取网站。我的问题是为什么会发生这种情况,PHPCrawler 有什么方法可以使用 https 协议抓取网站。谢谢。

0 投票
1 回答
79 浏览

php - 我想使用 php 爬虫从此文档中获取特定的 url

我不知道该怎么做,我可能会得到一些反对票。

我有一个类似的网页:

我想抓取一个页面,其中填充了我对检索不感兴趣的其他几个元素。

我只想在元素中检索href锚标记中的属性,li而不是其他任何东西。之后,我将按照链接获取另一个网页,其中包含以下内容:

所以最后,我会得到元素中的任何h1内容:

如果你们能帮助我解决这个问题,我将不胜感激。此外,任何 API 都会做得很好。

我有这段代码从元素中获取属性,但我无法让它爬取在特定元素中找到的元素。

0 投票
1 回答
266 浏览

php - 在 Laravel 5.4 中使用 phpcrawl

我正在尝试在 Laravel 5.4 中使用 cuab 的 PHPCrawl,并使用此包通过作曲家将其包含在内: https ://packagist.org/packages/mmerian/phpcrawl

我试过运行这个示例代码:

但它会引发多个这样的错误:

找不到类“App\Http\Controllers\PHPCrawler”

您将如何引用正确的命名空间以便我可以在 Laravel 中使用该脚本?

0 投票
0 回答
73 浏览

php - PHPCRAWL - 如何为特定链接名称添加过滤器?

我正在将我的一个项目用作网络爬虫http://phpcrawl.cuab.de并且到目前为止它工作正常,除了我不知道如何排除或跳过具有特定名称的链接。

我已经使用了一些规则来忽略特定的文件类型

http://phpcrawl.cuab.de/classreferences/PHPCrawler/overview.html

但是如何为链接中的名称添加过滤器?

即忽略包含 %feed% 或 %imprint% 等的链接。

0 投票
1 回答
464 浏览

python - 从具有不同结构的不同域(大部分)中抓取多个单页

我有一个非常具体的 url 列表,我需要从(不同的选择器/字段)中抓取数据。来自大约 300 个具有不同结构(选择器/xpath)的不同网站总共有大约 1000 个链接。我正在尝试看看是否有人对如何做到这一点有任何建议。我在网上寻找解决方案,可以看到有人推荐 Python 和 Scrapy。虽然我对这些不太了解并且仍然试图理解,但我从网上找到的似乎如果我为此使用 Scrapy/Python,看起来我将不得不为每个链接创建一个单独的蜘蛛(至少具有不同的结构体)。我还查看了 Scrapy 的通用蜘蛛方法,并尝试将它们用于我的案例,但它们没有用。

我要提取的示例链接和字段如下所示,其中“url”是页面,由“selector”标识的字段是我要从该页面中提取的内容。我想在“名称”字段下输出每个

最后,我确实对 PHP 有更好的了解,因此对于为此目的使用 PHP 的任何建议也值得赞赏。