问题标签 [domcrawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - DomCrawler FilterXPath 查询
我有一些html,如下所示:
我正在尝试选择<form>
除具有特定名称的标签(即innerhtml)之外的所有内容。这是我正在使用的查询:
这成功地过滤掉了特定<td>
的内容,但问题是它只返回内容<td>
。如您所见,还有其他<input>
不在其中的<table>
,我也需要这些。
任何人都可以帮助这个查询吗?谢谢!
symfony - SymFony DomCrawler id*='text'
我正在尝试让 DomCrawler 选择 ID 包含“作者-”的所有 DIV
我目前有
$list = $crawler->filter('div[id*="actor-"]')->each(function (Crawler $node, $i) {
return $node->text();
});
var_dump($list);
但这不会返回任何结果,有没有这样的选择器?
php - Goutte 为多个 url 抓取返回错误的 url
我正在使用https://github.com/FriendsOfPHP/Goutte。在 while 循环中单击分页链接时,我不断收到错误的 url。
对象上的selectLink返回第一个 while 循环的正确 url。看起来第二个循环为selectLink返回了错误的值。
这是代码。
这是输出:
php - 如何使用 Goutte/Domcrawler 组合 2 条提取数据的文本节点
我一直在试图弄清楚如何将两个提取的文本组合成一个结果(数组)。在这种情况下,各种书籍的标题和副标题。
我能得到的最接近的是:
我已经设法输出以下内容:
并导致
另一个问题是不是所有的书都有字幕,所以我需要避免将两个标题组合在一起。我将如何将这两者组合成一个结果(或数组)?
php - 突破 Symfony 的 DomCrawler 中的 each 方法
我试图过滤特定元素,然后一旦找到文本,我想记录位置并突破each
方法。但我无法摆脱它我得到 PHP 错误Cannot break/continue 2 levels
这是我正在使用的当前代码:
symfony - Symfony + DomCrawler - 如何从
我正在使用 Symfony 2.8 和 DomCrawler 解析网站,但在data
从 HTML 实体读取属性时遇到问题。它可能与data
属性的特定约定一样简单,但我无法在 Web 上找到任何讨论如何通过 DomCrawler 检索数据属性的参考或示例。
以下是详细信息:
我在我正在解析的 HTML 中遇到了这个构造的一个实例(来自另一个网站,所以我不能修改这个 HTML):
我正在使用此代码搜索div
's 块并返回data-src
值:
从 DomCrawler 文档中,我希望该attr
函数返回data-src
属性值,但它返回 null;我的函数的返回是一个由 6 个元素组成的数组,只有数字而不是附加文本。
在此先感谢您的帮助。
parsing - 使用 Html Agility 包抓取和获取链接之间的区别,
我正在使用带有控制台应用程序 c# 的 Html Agility 包获取网站的链接,通过提供我想要的 div 并从这些 div 中获取链接,我的问题是我正在做的事情是爬行或解析,如果不是那么什么是爬行
php - Python 中的 Symfony DomCrawler 等价物
有没有像SymfonyDomCrawler
那样工作的 python 库?我想使用 CSS 选择器从一些 HTML 中提取数据。
我最感兴趣的功能类似于以下 PHP 片段:
如果 python 中有任何默认功能可以轻松完成此操作,那也可以。
php - 脚本标签中的 Symfony dom-crawler 字符串转换为 UTF8
我有这个 HTML 内容:
当我使用 Symfony 的 dom-crawler 时,文本被 HTML 编码。我怎样才能防止这种情况?$crawler->html()
结果:
php - 节点列表为空:按钮为 glyphicon
功能测试$form = $crawler->selectButton('input[type=submit]')->form();
失败
当前节点列表为空
源代码:
结果与以下内容相同:
selectButton('.btn')
filterXPath('span[@class="glyphicon glyphicon-search"]')
filter('navbar-form')
filter('.btn')
filter('input[type="submit"]')
filter('input[type=submit]')
什么是正确的选择器?