问题标签 [goutte]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

298 问题

0 投票

1 回答

2352 浏览

php - Symfony DomCrawler 如何在 Javascript 中进行搜索

我正在使用 Goutte 抓取网页

我使用块来查找节点

如果我只想要第一个节点

那么我怎样才能找到“A LINK”？我被这个 js 块击中了

2014-07-05T15:41:19.187

0 投票

1 回答

176 浏览

php - 将节点列表减少 X

我目前正在返回一个具有 21 个节点的爬虫对象。

但是，我遇到的问题是，我不想要这些节点中的前 4 个。如何过滤生成的对象以仅包含最后 17 个节点？

php web-crawler goutte

2014-07-09T03:44:25.060

0 投票

3 回答

2719 浏览

php - 使用 Goutte 获取 cURL 超时错误，即使使用配置设置

这是代码：

错误（重复两次）： PHP Fatal error: Uncaught exception 'GuzzleHttp\Exception\RequestException' with message '[curl] (#28) See http://curl.haxx.se/libcurl/c/libcurl-errors.html for an explanation of cURL errors [url] https://sfbay.craigslist.org/sfc/apa/' in /Users/...../vendor/guzzlehttp/guzzle/src/Adapter/Curl/MultiAdapter.php:216

问题是：代码在一小时前工作，没问题！在发现错误 #28 超时后，我添加了 cURL 选项。

我错过了 cURL 选项吗？或者也许我设置的值错误？为什么要改变？我不在一个明显较慢的网络（AFAIK）上。

php curl goutte

2014-07-15T22:28:24.013

0 投票

2 回答

1647 浏览

php - 如何在没有 cookie 的情况下使用 Goutte

如何使用gotte但不将 cookie 发送回服务器？

我想这样做是因为服务器可以管理 URL 中的 sessionid。

php goutte

2014-07-20T05:16:00.493

0 投票

1 回答

1415 浏览

php - 使用 Goutte 抓取 Facebook 页面

我正在尝试用 Goutte 抓取 Facebook 页面，以收集页面的“创建日期”。这不能通过 Graph API 访问。

在测试中，我能够从 tutsplus 和 symfony-project 之类的页面中检索所有链接，但是当我尝试访问诸如“ https://www.facebook.com/151116474914629 ”之类的页面时，它会返回不正确的“ 2”链接。

代码：

关于检索整页内容的任何想法？

php facebook laravel web-scraping goutte

2014-07-31T02:24:13.307

0 投票

1 回答

841 浏览

php - 在 Symfony 2+ 中使用 Goutte 进行过滤

我正在尝试使用 goutte 从 html 文件中提取特定值

在这种情况下，我得到了片段：

我想提取myfield1a 的值。我该如何实现？

我已经尝试过但没有成功（结果为NULL）：

php symfony goutte

2014-08-23T07:25:13.243

0 投票

2 回答

5055 浏览

php - Goutte - dom 爬虫 - 移除节点

我的网站上有 html（http://testsite.com/test.php）：

我想收到：

所以我想删除跨度。我基于http://symfony.com/doc/current/components/dom_crawler.html在 Symfony2 中使用 Goutte ：

php symfony dom web-crawler goutte

2014-10-13T18:24:11.903

0 投票

1 回答

2497 浏览

php - 使用 Guzzle / Goutte 时限制请求大小

我正在寻找重新编写我拥有的 Python 脚本，该脚本通过链接列表，然后从它获得的页面中提取几天。

出现的一个问题是，如果链接是图像或 zip 甚至 ISO，我不想下载整个文件。我可以尝试检查扩展名，但这并不总是有效。

在我的 Python 脚本中，我做了两件事。

连接到站点后，我会检查内容类型标题。Python 似乎能够在不下载整个文件的情况下做到这一点。
将我在请求中下载的 URL 限制为 150kb。由于我只是在 HTML 页面之后，这将涵盖它。

我想在这个项目中使用 Guzzle，但是查看文档我不确定这是否可以完成。

我的主要问题是确保我没有下载 ISO 文件或视频并使用所有 RAM 或带宽。

php curl guzzle goutte

2014-10-22T12:06:05.430

0 投票

1 回答

1866 浏览

php - Goutte：如何提交没有价值的表单按钮？

在亚马逊上创建愿望清单链接，弹出一个表格。该表单包含以下方式的提交按钮：

我正在使用以下代码，但它没有获取表单：

问题可能是selectButton()与在我的情况下不存在的确切文本匹配。请帮忙

php guzzle goutte

2014-11-14T12:54:49.987

0 投票

1 回答

636 浏览

php - 爬虫 symfony2 过滤器显示节点列表为空

我使用 Goutte/Symfony2 抓取网页，但过滤器有问题，

我在 $msg 中有爬虫（网络的一部分），如果我打印 html，我可以在 $msg 内部看到一个 .mola 类的 div，为什么如果我过滤 $msg 以从 .mola 获取文本The current node list is empty？

谢谢！！

php symfony web-crawler goutte

2014-11-28T13:12:00.203

1 2 3 4 5 6 7 8 9 10

问题标签 [goutte]

Reference