问题标签 [domcrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
250 浏览

php - Symfony DomCrawler:无法按 Id 获取标签

我正在刮这个页面。我正在访问以下 HTML 以获取部分详细信息:

我想抓住id, Volume_one: Quicksilver .282003.29。为此,我编写了以下代码:

但尽管它在那里,但它并没有返回细节。我在哪里做错了?它确实可以#Epilogs很好地获取部分。

请帮忙。

0 投票
1 回答
589 浏览

regex - Symfony2 - DomCrawler - 通过它在正则表达式中的邻居内容获取元素的内容

我有这个xml:

我想获取<LabelText language="EN">邻居<LabelText language="ALL">以“BE”开头并且后面有 3 个数字的值。

在这种情况下,我将在示例中获得第二个 xml 元素的值:VLAAMS GEWEST

我有一个想法如何以丑陋的方式处理它,但我相信应该有更灵活和优雅的方式来做到这一点:

有没有办法处理它DomCrawler而不是迭代所有元素并检查每个元素?

0 投票
1 回答
1136 浏览

php - 无法使用 Symfony Dom Crawler 获取元素的值

我正在使用 guzzle POST 方法获取 URL。它的工作并返回我想要的页面。但问题是当我想在该页面的表单中获取输入元素的值时,爬虫什么都不返回。我不知道为什么。

PHP:

我应该怎么办 ?

0 投票
0 回答
781 浏览

php - 如何使用 :not CSS Selector 过滤掉 Symfony DomCrawler 实例?

这是 html 片段,我想从中提取所有带逗号的链接元素,但不是跨度类 tl 中的跨度元素

我试着这样做

但它不起作用。谁能帮我提取代码?

在我得到的 $links 的 var_dump 上

我期待这样的事情

其中 ',' 也作为 text() 方法出现,也应该返回它们。

仅供参考,如果我使用此代码

我得到这个输出

我只想选择所有带有链接的标签。

0 投票
1 回答
840 浏览

php - 如何使用 symfony dom crawler 过滤或提取不包括 span 的链接元素并将它们保存在逗号分隔的数组中?

我想提取这样的数组中的信息

0 投票
0 回答
84 浏览

php - 无法使用 Symfony DomCrawler 从 HTML DOM 获取文本

我正在使用 symfony 抓取 HTML DomCrawler。我提供了我需要获取的 HTML 片段:

现在我需要987654文本,但我没有成功。这是我尝试过的:

我能够得到1234567因为它位于tag下,这就是我所做的:

0 投票
1 回答
771 浏览

php - 如何在 symfony 的 CSS 选择器组件中使用 :not 选择器

我想通过以下方式模拟我在 jQuery 中可以实现的目标 $('.someClass:not(.hidden)')

我试过下面的代码。

$crawler->filter('someClass:not(.hidden)')

但它似乎不起作用

0 投票
0 回答
302 浏览

php - Laravel 5.4 PHPunit testing 无法访问的字段(使用的名称/id attirbute)

我正在根据 Laracast/Integreted完全按照那里显示的名称属性 测试 Laravel 。每页一张表格。

我在一个表单上进行了一些单元测试,其中前两个字段到达,但第三个字段是 name="input" 的 textarea。这是视图html

在运行 phpunit 代码时

我明白了

还在 type() 中使用了所有可能的选择器,例如 id,class,但没有任何东西可以到达最后两个 textarea 字段。请指导我对此问题的任何解决方案或解释。

0 投票
1 回答
818 浏览

php - Guzzle 异步进程响应,因为它进来

我一直在编写一个使用 getAsync 和 Promise\Settle 发出近千个异步请求的脚本。每个页面都请求它,然后使用 Symphony 爬虫过滤器方法进行解析(也很慢,但一个单独的问题。)

我的代码看起来像这样:

有没有一种方法可以在请求的页面进入时抓取它们,而不是等待它们全部然后抓取。如果可能的话,我是否认为这会加快速度?

提前感谢您的帮助。

0 投票
1 回答
805 浏览

symfony - DomCrawler 正在删除部分 html

当我在没有 DomCrawler 的情况下获得内容时,我会获得带有 @click 等自定义标签的 html,但是当我使用$this->crawler->filter('something')->html()DomCrawler 时,我会删除我的 @click 标签。

这是一个不使用 DomCrawler 的示例:

在此处输入图像描述

这里使用的是 DomCrawler:

在此处输入图像描述

如您所见,DomCrawler 正在删除所有@clicks,我该如何阻止它?