问题标签 [goutte]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - Symfony DomCrawler 如何在 Javascript 中进行搜索
我正在使用 Goutte 抓取网页
我使用块来查找节点
如果我只想要第一个节点
那么我怎样才能找到“A LINK”?我被这个 js 块击中了
php - 将节点列表减少 X
我目前正在返回一个具有 21 个节点的爬虫对象。
但是,我遇到的问题是,我不想要这些节点中的前 4 个。如何过滤生成的对象以仅包含最后 17 个节点?
php - 使用 Goutte 获取 cURL 超时错误,即使使用配置设置
这是代码:
错误(重复两次):
PHP Fatal error: Uncaught exception 'GuzzleHttp\Exception\RequestException' with message '[curl] (#28) See http://curl.haxx.se/libcurl/c/libcurl-errors.html for an explanation of cURL errors [url] https://sfbay.craigslist.org/sfc/apa/' in /Users/...../vendor/guzzlehttp/guzzle/src/Adapter/Curl/MultiAdapter.php:216
问题是:代码在一小时前工作,没问题!在发现错误 #28 超时后,我添加了 cURL 选项。
我错过了 cURL 选项吗?或者也许我设置的值错误?为什么要改变?我不在一个明显较慢的网络(AFAIK)上。
php - 如何在没有 cookie 的情况下使用 Goutte
如何使用gotte但不将 cookie 发送回服务器?
我想这样做是因为服务器可以管理 URL 中的 sessionid。
php - 使用 Goutte 抓取 Facebook 页面
我正在尝试用 Goutte 抓取 Facebook 页面,以收集页面的“创建日期”。这不能通过 Graph API 访问。
在测试中,我能够从 tutsplus 和 symfony-project 之类的页面中检索所有链接,但是当我尝试访问诸如“ https://www.facebook.com/151116474914629 ”之类的页面时,它会返回不正确的“ 2”链接。
代码:
关于检索整页内容的任何想法?
php - 在 Symfony 2+ 中使用 Goutte 进行过滤
我正在尝试使用 goutte 从 html 文件中提取特定值
在这种情况下,我得到了片段:
我想提取myfield1
a 的值。我该如何实现?
我已经尝试过但没有成功(结果为NULL):
php - Goutte - dom 爬虫 - 移除节点
我的网站上有 html(http://testsite.com/test.php):
我想收到:
所以我想删除跨度。我基于http://symfony.com/doc/current/components/dom_crawler.html在 Symfony2 中使用 Goutte :
php - 使用 Guzzle / Goutte 时限制请求大小
我正在寻找重新编写我拥有的 Python 脚本,该脚本通过链接列表,然后从它获得的页面中提取几天。
出现的一个问题是,如果链接是图像或 zip 甚至 ISO,我不想下载整个文件。我可以尝试检查扩展名,但这并不总是有效。
在我的 Python 脚本中,我做了两件事。
连接到站点后,我会检查内容类型标题。Python 似乎能够在不下载整个文件的情况下做到这一点。
将我在请求中下载的 URL 限制为 150kb。由于我只是在 HTML 页面之后,这将涵盖它。
我想在这个项目中使用 Guzzle,但是查看文档我不确定这是否可以完成。
我的主要问题是确保我没有下载 ISO 文件或视频并使用所有 RAM 或带宽。
php - 爬虫 symfony2 过滤器显示节点列表为空
我使用 Goutte/Symfony2 抓取网页,但过滤器有问题,
我在 $msg 中有爬虫(网络的一部分),如果我打印 html,我可以在 $msg 内部看到一个 .mola 类的 div,为什么如果我过滤 $msg 以从 .mola 获取文本The current node list is empty
?
谢谢!!