问题标签 [domcrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
971 浏览

php - DomCrawler FilterXPath 查询

我有一些html,如下所示:

我正在尝试选择<form>除具有特定名称的标签(即innerhtml)之外的所有内容。这是我正在使用的查询:

这成功地过滤了特定<td>的内容,但问题是它只返回内容<td>。如您所见,还有其他<input>不在其中的<table>,我也需要这些。

任何人都可以帮助这个查询吗?谢谢!

0 投票
1 回答
1566 浏览

symfony - SymFony DomCrawler id*='text'

我正在尝试让 DomCrawler 选择 ID 包含“作者-”的所有 DIV

我目前有

$list = $crawler->filter('div[id*="actor-"]')->each(function (Crawler $node, $i) { return $node->text(); }); var_dump($list);

但这不会返回任何结果,有没有这样的选择器?

0 投票
0 回答
1128 浏览

php - Goutte 为多个 url 抓取返回错误的 url

我正在使用https://github.com/FriendsOfPHP/Goutte。在 while 循环中单击分页链接时,我不断收到错误的 url。

对象上的selectLink返回第一个 while 循环的正确 url。看起来第二个循环为selectLink返回了错误的值。

这是代码。

这是输出:

在此处输入图像描述

0 投票
2 回答
592 浏览

php - 如何使用 Goutte/Domcrawler 组合 2 条提取数据的文本节点

我一直在试图弄清楚如何将两个提取的文本组合成一个结果(数组)。在这种情况下,各种书籍的标题和副标题。

我能得到的最接近的是:

我已经设法输出以下内容:

并导致

另一个问题是不是所有的书都有字幕,所以我需要避免将两个标题组合在一起。我将如何将这两者组合成一个结果(或数组)?

0 投票
1 回答
1493 浏览

php - 突破 Symfony 的 DomCrawler 中的 each 方法

我试图过滤特定元素,然后一旦找到文本,我想记录位置并突破each方法。但我无法摆脱它我得到 PHP 错误Cannot break/continue 2 levels

这是我正在使用的当前代码:

0 投票
1 回答
2017 浏览

symfony - Symfony + DomCrawler - 如何从

我正在使用 Symfony 2.8 和 DomCrawler 解析网站,但在data从 HTML 实体读取属性时遇到问题。它可能与data属性的特定约定一样简单,但我无法在 Web 上找到任何讨论如何通过 DomCrawler 检索数据属性的参考或示例。

以下是详细信息:

我在我正在解析的 HTML 中遇到了这个构造的一个实例(来自另一个网站,所以我不能修改这个 HTML):

我正在使用此代码搜索div's 块并返回data-src值:

从 DomCrawler 文档中,我希望该attr函数返回data-src属性值,但它返回 null;我的函数的返回是一个由 6 个元素组成的数组,只有数字而不是附加文本。

在此先感谢您的帮助。

0 投票
0 回答
143 浏览

parsing - 使用 Html Agility 包抓取和获取链接之间的区别,

我正在使用带有控制台应用程序 c# 的 Html Agility 包获取网站的链接,通过提供我想要的 div 并从这些 div 中获取链接,我的问题是我正在做的事情是爬行或解析,如果不是那么什么是爬行

0 投票
0 回答
243 浏览

php - Python 中的 Symfony DomCrawler 等价物

有没有像SymfonyDomCrawler那样工作的 python 库?我想使用 CSS 选择器从一些 HTML 中提取数据。

我最感兴趣的功能类似于以下 PHP 片段:

如果 python 中有任何默认功能可以轻松完成此操作,那也可以。

0 投票
1 回答
2029 浏览

php - 脚本标签中的 Symfony dom-crawler 字符串转换为 UTF8

我有这个 HTML 内容:

当我使用 Symfony 的 dom-crawler 时,文本被 HTML 编码。我怎样才能防止这种情况?$crawler->html()结果:

0 投票
2 回答
71 浏览

php - 节点列表为空:按钮为 glyphicon

功能测试$form = $crawler->selectButton('input[type=submit]')->form();失败

当前节点列表为空

源代码:

结果与以下内容相同:

  • selectButton('.btn')
  • filterXPath('span[@class="glyphicon glyphicon-search"]')
  • filter('navbar-form')
  • filter('.btn')
  • filter('input[type="submit"]')
  • filter('input[type=submit]')

什么是正确的选择器?