问题标签 [domcrawler]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

168 问题

0 投票

1 回答

549 浏览

php - 如何获取 HTML 文档中的所有 TEXT 外部元素

我正在使用 Symfony DomCrawler 获取文档中的所有文本。

我正在尝试收集<body>元素之外的所有文本。

我正在使用 PHP Symfony，可以使用 XPath（首选）或 RegEx。

2016-06-01T13:21:05.433

0 投票

1 回答

40 浏览

php - 生成页面点击的最快最有效方法

我正在尝试抓取我网站上的每个页面（由 cron 运行）以更新数据。大约有500页。

我已经尝试了 2 个选项。

PHP 简单的 HTML DOM 解析器
PHP get_headers

使用上述任何一种方法，每个页面大约需要 1.402 秒才能加载。这总共需要大约 570 秒。

有没有更有效的方法来做到这一点？

php web-crawler domcrawler

2016-06-23T10:41:36.027

0 投票

2 回答

10471 浏览

php - 如何使用 symfony dom 爬虫将 html 表解析为数组

我有 html 表，我想从该表中创建数组

我的数组必须看起来像这样

我已经尝试了下面的代码，但无法获得我需要的数组

php arrays symfony domcrawler

2016-06-28T01:25:40.303

0 投票

1 回答

168 浏览

php - 在匿名函数中更新数组不起作用

我正在尝试使用一个名为 Goutte (php scraper/web-crawler) 的包，如下所示：

当此脚本运行时，$reviews数组始终为空。但是，如果我print_r在匿名函数中，它似乎只显示每个循环中的当前元素。例如，如果有 4 条评论，我会这样做：

它输出如下：

好像数组永远不会在匿名函数中更新。知道如何解决这个问题吗？

php arrays goutte domcrawler

2016-07-16T18:31:44.570

0 投票

1 回答

861 浏览

php - 如何使用 Guzzle PHP 登录亚马逊

我正在尝试使用 Guzzle 登录亚马逊，但我没有运气。这是我的代码：

当我得到它的响应时，$response->getBody()->getContents()它在成功登录时返回登录页面而不是重定向页面。

php symfony web-scraping guzzle domcrawler

2016-07-24T21:41:08.290

0 投票

1 回答

559 浏览

php - Curl is returning a string

I'm using curl to get my values from a site name PKNiC

My code is:

Now when I run this program it returns a string to me with whole page print on it as a single string.

enter image description here

I need registrant name, expiry date, create date, contacts. How do I get those things? I have no idea how it works and it just provide me a single string when I use var_dump or print_r or any thing to view it. How to get the record of my choice?

php dom curl web-crawler domcrawler

2016-08-08T08:43:05.373

0 投票

1 回答

40 浏览

php - 包含空格字符的测试 uri 产生“当前节点列表为空”

尝试使用包含的空格字符测试 uri 失败。uri 是/contact/latestReport/Most recent. 以下每个试验的结果

当前节点列表为空

试验包括：

$crawler = $client->request('GET', '/contact/latestReport/Most recent');
$crawler = $client->request('GET', '/contact/latestReport/Most%20recent');
$uri = urlencode('/contact/latestReport/Most recent'); $crawler = $client->request('GET', urldecode($uri));

编辑：这是实际的测试代码。它以前的工作版本仅包含/contact/latestReport. 添加/Most recent仅在测试中产生错误。[客户要求一份非常相似的报告，因此有现在/Most recent和/FY to date版本。] 在开发和生产环境中/contact/latestReport/Most recent产生了预期的结果。

php symfony domcrawler

2016-08-20T20:01:50.043

0 投票

1 回答

2943 浏览

php - 带有 XML 和 XPath 的 Symfony DomCrawler

我正在尝试获取所有title元素并将它们保存在一个数组中。

XML:

PHP：

元素节点需要满足一些条件，所以调用$result->count()应该打印2（示例 3 和示例 5），但它打印 0。

谢谢。

编辑：

找到解决方案，XPath 应该是：

php xml symfony xpath domcrawler

2016-09-03T23:18:29.783

0 投票

1 回答

523 浏览

symfony - symfony爬虫访问嵌套div

我拼命尝试访问嵌套 div 中的内容：

我正在尝试访问链接中的“09:00”和“测试标题更新测试地点”。

我不知何故被困在

我可以访问

但我无法访问

和

我尝试了所有的变化

和

没有运气。

html通过验证，没有js。

谢谢！

symfony phpunit domcrawler

2016-09-06T15:14:35.157

0 投票

2 回答

916 浏览

seo - 我有一个指向 www 的 302 重定向。但 Googlebot 一直在抓取非 www 网址

您知道是否可以强制机器人在 www.domaine.com 而不是 domaine.com 上爬行？就我而言，我有一个 Web 应用程序，它使用 prerender.io 启用了缓存的 url（以查看 HTML 代码），但仅限于 www。

因此，当机器人在 domaine.com 上爬行时，它没有数据。

在 Nginx 上重定向是自动的 (domaine.com> http://www.domaine.com )，但没有结果。

我说我在我的站点地图上，网址都是 www。

我的 Nginx 重定向：

你有想法吗？

谢谢！

seo web-crawler google-crawlers domcrawler

2016-09-21T09:37:13.983

1 2 3 4 5 6 7 8 9 10

问题标签 [domcrawler]

Reference