问题标签 [domcrawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 使用 Goutte 解析 - 如何在包含文本字符串的元素之后定位元素
我正在使用https://github.com/FriendsOfPHP/Goutte来解析和提取数据,我做得很好......
但是现在我偶然发现了一个有点不友好的地方:
在这种情况下,我正在尝试从td
紧跟在th
包含特定字符串的元素之后的元素中获取文本。Website:
我的 php 看起来像这样:
问题
我的代码不起作用。
我的尝试- 我尝试同时使用
"+Website+"
和"Website:"
- 我试图通过计算表的行数来进行一些智能定位,但是目标站点上的每个数据库条目以不同的方式排列项目,没有可靠的模式。
去做
使脚本从
php - Symfony 的 DomCrawler 没有找到特定的标签
我正在使用 DomCrawler 从 Google Play 页面获取数据,它在 99% 的情况下都有效,但我偶然发现了一个找不到特定 div 的页面。我检查了 HTML 代码,它肯定在那里。我的代码是
当我运行该特定页面时,我得到
PHP Fatal error: Uncaught InvalidArgumentException: The current node list is empty.
但是,如果我使用任何其他 ID,我会得到想要的结果。破坏 DomCrawler 的页面到底是什么
php - 如何使用 symfony dom 解析器
我正在尝试使用 Symfony Crawler。
所以我检查了这篇文章。
我想要做的是得到3,335.00
(第二个参数)
现在,我尝试这样的句子,但它是错误的。
$crawler = $crawler->filter('body > div[@class="cell_label"]');
我该怎么做??
php - 使用DOMCrawler将html内容添加到PHP中的标签
目标是对 HTML 文档进行一些修改。我通过以下方式加载 HTML 文档:
我设法删除了我不需要的节点,但我不知道如何将 html 内容插入到某个标签内。
在下面的示例中,我试图将数据插入到 head 部分,但 HTML 文档没有改变。
我在这里做错了什么?
谢谢
php - DomCrawler 仅选择段落
我想在使用 DomCrawler/Goutte Symfony 组件.pertanyaan
的类之前提取每个类中的段落.listjawaban
有没有办法做到这一点?我来了,$crawler->filter('.pertanyaan p')->eq($i)->html()
但它只给了我第一段,因为$i
是.pertanyaan
班级的第 n 个位置。
这是我要抓取的网址:http: //indocademy.com/soal/sbmptn/biologi/2013
一切都很好,除了抓取时,但在编号 #53,因为要提取三个段落标签(我只假设每个数字都有它的第一段标签是问题,我不知道如何在.listjawaban
课前提取所有段落)
请帮忙
symfony - 如何为 domCrawler symfony 使用通配符?
是否可以使用通配符不选择某些 UL LI 元素,如下所示?
此致,
symfony - 如何在我的功能测试中通过 URL 找到链接?
在Symfony 测试文档中,它展示了如何选择包含特定文本的链接:
但我正在寻找的链接并不总是具有相同的文本。它会根据记录的状态说出几种不同的事情之一,因此,我需要通过 URL 找到它。我想我可以弄清楚如何使用 xpath 过滤器来做到这一点。这是我应该去的,还是有更好的方法?
laravel - Symfony DomCrawler 无法获取属性
对于这个 div:
我做:
并返回:
我也尝试过:
但“链接”属性始终为空。¿ 为什么我无法获得“链接”属性?
我正在使用 Laravel 5.2 并通过作曲家安装了 Symfony Crawler。
symfony - 只能得到一个结果 Dom Crawler
试图在 div id=firehoselist 中获取 h2 中的所有内容(以获取文章的标题),但以下代码仅返回第一个结果。请有任何想法
我要抓取的内容太杂乱,无法在此处发布,但它来自 slashdot org 网站
php - 使用 Goute PHP 获取嵌套 div 类中的内容
抱歉英语不好。所以我想从网站上删除一些内容,但是 div 类是嵌套的,让我很困惑。
基本上结构是:
我想从 Pengarang 字段获取文本 I Anggara Wijaya, Djoko Budiyanto Setyohadi ,并从Tanggal Terbit字段获取2017/3/1。
请帮帮我。