问题标签 [phpcrawl]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

28 问题

0 投票

1 回答

99 浏览

web - 我如何从一个网站获取所有的网络链接？

我想获取 website 中可用的所有链接（网络帖子）。而且，如果将任何新帖子添加到网站上，我应该能够获得链接。我将列出 10 个网站，并且需要定期运行链接提取过程。

有人可以帮助我如何仅获取帖子链接和添加的新帖子链接。

2015-09-15T07:09:26.133

0 投票

0 回答

147 浏览

php - PHPCrawl cookies / 密码认证

我有一个关于 PHPCrawl 的问题，用于抓取我有密码的受密码保护的网站。

所以，我有适用于不需要身份验证的网站的爬虫。我从终端执行的爬虫（ubuntu 14.04）。但是当我尝试在需要用户名和密码的网站上使用它时，它不起作用。我试过PHPCrawl->addBasicAuthentication但没有帮助。然后，我有了以下想法 - 从浏览器调用爬虫，首先我打开一个标签，在其中打开我要爬的网站并登录。

但我假设 PHPCrawl 不知道身份验证会话。所以，我的问题是：有没有人知道如何让 PHPCrawl 知道我已登录并毫无问题地抓取网站？

php authentication cookies web-crawler phpcrawl

2015-10-06T11:14:50.993

0 投票

1 回答

990 浏览

php - 浏览亚马逊畅销书页面

我正在尝试浏览亚马逊畅销书页面，该页面列出了前 100 名畅销书商品，每页有 20 件商品。在每个循环中，$i 值都会更改并附加到 URL。但是只有前 20 个项目被显示了 5 次，我认为这与 ajax 分页有关，但我无法弄清楚它是什么。

php phpcrawl

2015-10-28T09:16:17.503

0 投票

1 回答

374 浏览

php - 使用 PHPCrawler 爬取时 https 主机无法访问

当尝试使用 https 协议爬取网站时，PHPCrawler 返回错误，说

但是，它确实使用http://协议抓取网站。我的问题是为什么会发生这种情况，PHPCrawler 有什么方法可以使用 https 协议抓取网站。谢谢。

php https web-crawler phpcrawl

2016-09-08T07:19:16.290

0 投票

1 回答

79 浏览

php - 我想使用 php 爬虫从此文档中获取特定的 url

我不知道该怎么做，我可能会得到一些反对票。

我有一个类似的网页：

我想抓取一个页面，其中填充了我对检索不感兴趣的其他几个元素。

我只想在元素中检索href锚标记中的属性，li而不是其他任何东西。之后，我将按照链接获取另一个网页，其中包含以下内容：

所以最后，我会得到元素中的任何h1内容：

如果你们能帮助我解决这个问题，我将不胜感激。此外，任何 API 都会做得很好。

我有这段代码从元素中获取属性，但我无法让它爬取在特定元素中找到的元素。

php html web-crawler phpcrawl

user5294439

2016-09-15T10:22:39.037

0 投票

1 回答

266 浏览

php - 在 Laravel 5.4 中使用 phpcrawl

我正在尝试在 Laravel 5.4 中使用 cuab 的 PHPCrawl，并使用此包通过作曲家将其包含在内： https ://packagist.org/packages/mmerian/phpcrawl

我试过运行这个示例代码：

但它会引发多个这样的错误：

找不到类“App\Http\Controllers\PHPCrawler”

您将如何引用正确的命名空间以便我可以在 Laravel 中使用该脚本？

php laravel laravel-5 phpcrawl

2017-03-16T16:10:27.200

0 投票

0 回答

73 浏览

php - PHPCRAWL - 如何为特定链接名称添加过滤器？

我正在将我的一个项目用作网络爬虫http://phpcrawl.cuab.de并且到目前为止它工作正常，除了我不知道如何排除或跳过具有特定名称的链接。

我已经使用了一些规则来忽略特定的文件类型

见http://phpcrawl.cuab.de/classreferences/PHPCrawler/overview.html

但是如何为链接中的名称添加过滤器？

即忽略包含 %feed% 或 %imprint% 等的链接。

php phpcrawl

2017-06-05T19:32:34.077

0 投票

1 回答

464 浏览

python - 从具有不同结构的不同域（大部分）中抓取多个单页

我有一个非常具体的 url 列表，我需要从（不同的选择器/字段）中抓取数据。来自大约 300 个具有不同结构（选择器/xpath）的不同网站总共有大约 1000 个链接。我正在尝试看看是否有人对如何做到这一点有任何建议。我在网上寻找解决方案，可以看到有人推荐 Python 和 Scrapy。虽然我对这些不太了解并且仍然试图理解，但我从网上找到的似乎如果我为此使用 Scrapy/Python，看起来我将不得不为每个链接创建一个单独的蜘蛛（至少具有不同的结构体）。我还查看了 Scrapy 的通用蜘蛛方法，并尝试将它们用于我的案例，但它们没有用。

我要提取的示例链接和字段如下所示，其中“url”是页面，由“selector”标识的字段是我要从该页面中提取的内容。我想在“名称”字段下输出每个

最后，我确实对 PHP 有更好的了解，因此对于为此目的使用 PHP 的任何建议也值得赞赏。

python web-scraping scrapy web-crawler phpcrawl

2018-08-21T16:02:47.113

1 2 3 4 5 6 7 8 9 10

问题标签 [phpcrawl]

Reference