问题标签 [domcrawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 如何获取 HTML 文档中的所有 TEXT 外部元素
我正在使用 Symfony DomCrawler 获取文档中的所有文本。
我正在尝试收集<body>
元素之外的所有文本。
我正在使用 PHP Symfony,可以使用 XPath(首选)或 RegEx。
php - 生成页面点击的最快最有效方法
我正在尝试抓取我网站上的每个页面(由 cron 运行)以更新数据。大约有500页。
我已经尝试了 2 个选项。
- PHP 简单的 HTML DOM 解析器
- PHP get_headers
使用上述任何一种方法,每个页面大约需要 1.402 秒才能加载。这总共需要大约 570 秒。
有没有更有效的方法来做到这一点?
php - 如何使用 symfony dom 爬虫将 html 表解析为数组
我有 html 表,我想从该表中创建数组
我的数组必须看起来像这样
我已经尝试了下面的代码,但无法获得我需要的数组
php - 在匿名函数中更新数组不起作用
我正在尝试使用一个名为 Goutte (php scraper/web-crawler) 的包,如下所示:
当此脚本运行时,$reviews
数组始终为空。但是,如果我print_r
在匿名函数中,它似乎只显示每个循环中的当前元素。例如,如果有 4 条评论,我会这样做:
它输出如下:
好像数组永远不会在匿名函数中更新。知道如何解决这个问题吗?
php - 如何使用 Guzzle PHP 登录亚马逊
我正在尝试使用 Guzzle 登录亚马逊,但我没有运气。这是我的代码:
当我得到它的响应时,$response->getBody()->getContents()
它在成功登录时返回登录页面而不是重定向页面。
php - Curl is returning a string
I'm using curl to get my values from a site name PKNiC
My code is:
Now when I run this program it returns a string to me with whole page print on it as a single string.
I need registrant name
, expiry date
, create date
, contacts
. How do I get those things? I have no idea how it works and it just provide me a single string when I use var_dump
or print_r
or any thing to view it. How to get the record of my choice?
php - 包含空格字符的测试 uri 产生“当前节点列表为空”
尝试使用包含的空格字符测试 uri 失败。uri 是/contact/latestReport/Most recent
. 以下每个试验的结果
当前节点列表为空
试验包括:
$crawler = $client->request('GET', '/contact/latestReport/Most recent');
$crawler = $client->request('GET', '/contact/latestReport/Most%20recent');
$uri = urlencode('/contact/latestReport/Most recent'); $crawler = $client->request('GET', urldecode($uri));
编辑:这是实际的测试代码。它以前的工作版本仅包含/contact/latestReport
. 添加/Most recent
仅在测试中产生错误。[客户要求一份非常相似的报告,因此有现在/Most recent
和/FY to date
版本。] 在开发和生产环境中/contact/latestReport/Most recent
产生了预期的结果。
php - 带有 XML 和 XPath 的 Symfony DomCrawler
我正在尝试获取所有title
元素并将它们保存在一个数组中。
XML:
PHP:
元素节点需要满足一些条件,所以调用$result->count()
应该打印2
(示例 3 和示例 5),但它打印 0。
谢谢。
编辑:
找到解决方案,XPath 应该是:
symfony - symfony爬虫访问嵌套div
我拼命尝试访问嵌套 div 中的内容:
我正在尝试访问链接中的“09:00”和“测试标题更新测试地点”。
我不知何故被困在
我可以访问
但我无法访问
和
我尝试了所有的变化
和
没有运气。
html通过验证,没有js。
谢谢 !
seo - 我有一个指向 www 的 302 重定向。但 Googlebot 一直在抓取非 www 网址
您知道是否可以强制机器人在 www.domaine.com 而不是 domaine.com 上爬行?就我而言,我有一个 Web 应用程序,它使用 prerender.io 启用了缓存的 url(以查看 HTML 代码),但仅限于 www。
因此,当机器人在 domaine.com 上爬行时,它没有数据。
在 Nginx 上重定向是自动的 (domaine.com> http://www.domaine.com ),但没有结果。
我说我在我的站点地图上,网址都是 www。
我的 Nginx 重定向:
你有想法吗 ?
谢谢 !