问题标签 [goutte]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2352 浏览

php - Symfony DomCrawler 如何在 Javascript 中进行搜索

我正在使用 Goutte 抓取网页

我使用块来查找节点

如果我只想要第一个节点

那么我怎样才能找到“A LINK”?我被这个 js 块击中了

0 投票
1 回答
176 浏览

php - 将节点列表减少 X

我目前正在返回一个具有 21 个节点的爬虫对象。

但是,我遇到的问题是,我不想要这些节点中的前 4 个。如何过滤生成的对象以仅包含最后 17 个节点?

0 投票
3 回答
2719 浏览

php - 使用 Goutte 获取 cURL 超时错误,即使使用配置设置

这是代码:

错误(重复两次): PHP Fatal error: Uncaught exception 'GuzzleHttp\Exception\RequestException' with message '[curl] (#28) See http://curl.haxx.se/libcurl/c/libcurl-errors.html for an explanation of cURL errors [url] https://sfbay.craigslist.org/sfc/apa/' in /Users/...../vendor/guzzlehttp/guzzle/src/Adapter/Curl/MultiAdapter.php:216

问题是:代码在一小时前工作,没问题!在发现错误 #28 超时后,我添加了 cURL 选项。

我错过了 cURL 选项吗?或者也许我设置的值错误?为什么要改变?我不在一个明显较慢的网络(AFAIK)上。

0 投票
2 回答
1647 浏览

php - 如何在没有 cookie 的情况下使用 Goutte

如何使用gotte但不将 cookie 发送回服务器?

我想这样做是因为服务器可以管理 URL 中的 sessionid。

0 投票
1 回答
1415 浏览

php - 使用 Goutte 抓取 Facebook 页面

我正在尝试用 Goutte 抓取 Facebook 页面,以收集页面的“创建日期”。这不能通过 Graph API 访问。

在测试中,我能够从 tutsplus 和 symfony-project 之类的页面中检索所有链接,但是当我尝试访问诸如“ https://www.facebook.com/151116474914629 ”之类的页面时,它会返回不正确的“ 2”链接。

代码:

关于检索整页内容的任何想法?

0 投票
1 回答
841 浏览

php - 在 Symfony 2+ 中使用 Goutte 进行过滤

我正在尝试使用 goutte 从 html 文件中提取特定值

在这种情况下,我得到了片段:

我想提取myfield1a 的值。我该如何实现?

我已经尝试过但没有成功(结果为NULL):

0 投票
2 回答
5055 浏览

php - Goutte - dom 爬虫 - 移除节点

我的网站上有 html(http://testsite.com/test.php):

我想收到:

所以我想删除跨度。我基于http://symfony.com/doc/current/components/dom_crawler.html在 Symfony2 中使用 Goutte :

0 投票
1 回答
2497 浏览

php - 使用 Guzzle / Goutte 时限制请求大小

我正在寻找重新编写我拥有的 Python 脚本,该脚本通过链接列表,然后从它获得的页面中提取几天。

出现的一个问题是,如果链接是图像或 zip 甚至 ISO,我不想下载整个文件。我可以尝试检查扩展名,但这并不总是有效。

在我的 Python 脚本中,我做了两件事。

  • 连接到站点后,我会检查内容类型标题。Python 似乎能够在不下载整个文件的情况下做到这一点。

  • 将我在请求中下载的 URL 限制为 150kb。由于我只是在 HTML 页面之后,这将涵盖它。

我想在这个项目中使用 Guzzle,但是查看文档我不确定这是否可以完成。

我的主要问题是确保我没有下载 ISO 文件或视频并使用所有 RAM 或带宽。

0 投票
1 回答
1866 浏览

php - Goutte:如何提交没有价值的表单按钮?

亚马逊上创建愿望清单链接,弹出一个表格。该表单包含以下方式的提交按钮:

我正在使用以下代码,但它没有获取表单:

问题可能是selectButton()与在我的情况下不存在的确切文本匹配。请帮忙

0 投票
1 回答
636 浏览

php - 爬虫 symfony2 过滤器显示节点列表为空

我使用 Goutte/Symfony2 抓取网页,但过滤器有问题,

我在 $msg 中有爬虫(网络的一部分),如果我打印 html,我可以在 $msg 内部看到一个 .mola 类的 div,为什么如果我过滤 $msg 以从 .mola 获取文本The current node list is empty

谢谢!!