问题标签 [domcrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
549 浏览

php - 如何获取 HTML 文档中的所有 TEXT 外部元素

我正在使用 Symfony DomCrawler 获取文档中的所有文本。

我正在尝试收集<body>元素之外的所有文本。

我正在使用 PHP Symfony,可以使用 XPath(首选)或 RegEx。

0 投票
1 回答
40 浏览

php - 生成页面点击的最快最有效方法

我正在尝试抓取我网站上的每个页面(由 cron 运行)以更新数据。大约有500页。

我已经尝试了 2 个选项。

  • PHP 简单的 HTML DOM 解析器
  • PHP get_headers

使用上述任何一种方法,每个页面大约需要 1.402 秒才能加载。这总共需要大约 570 秒。

有没有更有效的方法来做到这一点?

0 投票
2 回答
10471 浏览

php - 如何使用 symfony dom 爬虫将 html 表解析为数组

我有 html 表,我想从该表中创建数组

我的数组必须看起来像这样

我已经尝试了下面的代码,但无法获得我需要的数组

0 投票
1 回答
168 浏览

php - 在匿名函数中更新数组不起作用

我正在尝试使用一个名为 Goutte (php scraper/web-crawler) 的包,如下所示:

当此脚本运行时,$reviews数组始终为空。但是,如果我print_r在匿名函数中,它似乎只显示每个循环中的当前元素。例如,如果有 4 条评论,我会这样做:

它输出如下:

好像数组永远不会在匿名函数中更新。知道如何解决这个问题吗?

0 投票
1 回答
861 浏览

php - 如何使用 Guzzle PHP 登录亚马逊

我正在尝试使用 Guzzle 登录亚马逊,但我没有运气。这是我的代码:

当我得到它的响应时,$response->getBody()->getContents()它在成功登录时返回登录页面而不是重定向页面。

0 投票
1 回答
559 浏览

php - Curl is returning a string

I'm using curl to get my values from a site name PKNiC

My code is:

Now when I run this program it returns a string to me with whole page print on it as a single string.

enter image description here

I need registrant name, expiry date, create date, contacts. How do I get those things? I have no idea how it works and it just provide me a single string when I use var_dump or print_r or any thing to view it. How to get the record of my choice?

0 投票
1 回答
40 浏览

php - 包含空格字符的测试 uri 产生“当前节点列表为空”

尝试使用包含的空格字符测试 uri 失败。uri 是/contact/latestReport/Most recent. 以下每个试验的结果

当前节点列表为空

试验包括:

  • $crawler = $client->request('GET', '/contact/latestReport/Most recent');

  • $crawler = $client->request('GET', '/contact/latestReport/Most%20recent');

  • $uri = urlencode('/contact/latestReport/Most recent'); $crawler = $client->request('GET', urldecode($uri));

编辑:这是实际的测试代码。它以前的工作版本仅包含/contact/latestReport. 添加/Most recent仅在测试中产生错误。[客户要求一份非常相似的报告,因此有现在/Most recent/FY to date版本。] 在开发和生产环境中/contact/latestReport/Most recent产生了预期的结果。

0 投票
1 回答
2943 浏览

php - 带有 XML 和 XPath 的 Symfony DomCrawler

我正在尝试获取所有title元素并将它们保存在一个数组中。

XML:

PHP:

元素节点需要满足一些条件,所以调用$result->count()应该打印2(示例 3 和示例 5),但它打印 0。

谢谢。

编辑:

找到解决方案,XPath 应该是:

0 投票
1 回答
523 浏览

symfony - symfony爬虫访问嵌套div

我拼命尝试访问嵌套 div 中的内容:

我正在尝试访问链接中的“09:00”和“测试标题更新测试地点”。

我不知何故被困在

我可以访问

但我无法访问

我尝试了所有的变化

没有运气。

html通过验证,没有js。

谢谢 !

0 投票
2 回答
916 浏览

seo - 我有一个指向 www 的 302 重定向。但 Googlebot 一直在抓取非 www 网址

您知道是否可以强制机器人在 www.domaine.com 而不是 domaine.com 上爬行?就我而言,我有一个 Web 应用程序,它使用 prerender.io 启用了缓存的 url(以查看 HTML 代码),但仅限于 www。

因此,当机器人在 domaine.com 上爬行时,它没有数据。

在 Nginx 上重定向是自动的 (domaine.com> http://www.domaine.com ),但没有结果。

我说我在我的站点地图上,网址都是 www。

我的 Nginx 重定向:

你有想法吗 ?

谢谢 !