问题标签 [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
74 浏览

facebook - 在源代码中看不到输出/渲染的文本

由于所有 Facebook 社交插件都有此功能;

您的 Facebook 名称可以在网页上看到,但是当您在源代码中查找时,您看不到 Facebook 名称。

所以我需要知道为什么以及如何?

此功能可用于避免抄袭/文本内容解析器。

示例: https ://developers.facebook.com/docs/reference/plugins/comments/

源代码中不存在 Facebook 用户的姓名。

请详细赐教,谢谢...

0 投票
3 回答
3106 浏览

php - PHP 刮板 - 正则表达式

我正在尝试遵循使用 php进行网络抓取的教程。

我大致了解发生了什么,但我不知道如何过滤已抓取的内容以获得我想要的内容。例如:

我看到(.*)将检索标题标签之间的所有内容,我可以使用正则表达式来获取特定信息。说里面他的标题有Welcome visitor #100我如何得到哈希后的数字?

还是我必须检索标签之间的所有内容,然后再对其进行操作?

0 投票
1 回答
433 浏览

php - 需要修复抓取 PHP 脚本

我们有一个 PHP 脚本,它可以抓取搜索引擎结果页面并将客户网站位置输出到为其域定制的报告套件中。

Google 在 2 月的第一周更改了一些内容,导致我们的脚本无法检测页面上的域,我目前还没有在办公室找到原始开发人员,我们的任何其他员工也无法解决这个问题。

我很确定我知道问题出在脚本中,只是因为我不是开发人员,所以我不确定每一行实际上在做什么。我们的脚本使用搜索结果中的相关类来确定我们要查找的内容实际位于何处。

脚本本身仍然可以正常运行并输出 HTML。这纯粹是脚本的一部分,它说在未检测到的页面上查找“域”。

我很感激您可能需要我提供更多信息才能告知问题所在,我很乐意根据需要提供文件/编码。如有必要,我也准备为此付费。

下面是我觉得问题发生的地方: -

任何帮助将不胜感激。

谢谢。

0 投票
2 回答
191 浏览

php - 一次迭代后foreach循环死亡

我一直在尝试使用 ScraperWiki,昨天,我可以得到liDOM 中所有 s 的列表。然而,现在我只运行了一次迭代。

这是我的代码

我不是一个真正的 PHP 人,所以我可能会遗漏一些明显的东西。完整来源在https://scraperwiki.com/scrapers/days_of_the_year/

0 投票
1 回答
1832 浏览

javascript - PhantomJS 和 pjscrape - 在某些多个 URL 上失败

概述

我正在尝试使用 PhantomJS 和 pjscrape 框架创建一个非常基本的刮板。

我的代码

使用的 URL 数组

第一个数组不起作用,并且在第三个或第四个 URL 之后失败。

这第二个阵列可以工作并且不会失败,即使它来自同一个站点。

问题

当遍历productURLsPhantomJSpage.open可选回调时,自动假定失败。即使页面尚未完成加载。

我知道这一点,因为我在运行 HTTP 调试器时启动了脚本,即使 PhantomJS 报告了页面加载失败,HTTP 请求仍在运行。

但是,使用categoriesURLs.

假设

  1. 上面列出的所有 URL 都是有效的
  2. 我有最新版本的 PhantomJS 和 pjscrape

可能的解决方案

这些是我迄今为止尝试过的解决方案。

  1. 禁用图像加载page.options.loadImages = false
  2. 设置较大显然没有用,因为生成的错误是timeoutInterval失败而不是超时失败。pjs.configpage.open

有任何想法吗?

0 投票
2 回答
2746 浏览

node.js - 抓取重定向网址。

无论如何,我可以知道刮掉重定向网址的网站。例子:

我猜是因为http://www.toyota.com.my/没有 html 文件。所以它无法得到响应。真正的重定向网址是http://www.toyota.com.my/index.html

我可以知道如何检测没有 html 响应的 url 吗?

0 投票
1 回答
775 浏览

facebook - Facebook - linter 得到糟糕的刮板代码

我在为 Facebook 的点赞按钮自定义数据时遇到问题。我想要一个自定义图像和一个自定义描述。<head>所以我在标题中(下)放了一些 Facebook 元标记。例如:

所有接缝都适合 HTML,但 Facebook linter 给了我一个错误,表明我在 body 中有 meta,但在 body 中没有 meta

实际上,Facebook 会抓取错误的数据。第 2 到 6 行不在我的源代码中,只是由 scraper: 放在那里http://developers.facebook.com/tools/debug/og/echo?q=http%3A%2F%2Fwww.bigboytoys.ro%2Findex.php%3FproductID%3D1212。因此,like按钮会忽略元标记中的内容。

我的网站由免费修改的脚本商店和Smarty 2.6.0 提供服务。

0 投票
2 回答
548 浏览

ruby - 如何计算一个页面的出站链接数量?

使用 Ruby 学习抓取。我正在尝试计算给定页面的出站链接数量,但我不确定如何告诉 Ruby 我只想计算出站链接。

我当前的代码:

我怎样才能完成这个?

0 投票
1 回答
731 浏览

facebook - Facebook 刮板错误读取内容

Facebook 刮板在阅读我的页面内容时会抛出一些奇怪的东西......

页面网址: http: //www.protagora.hr/Stranica/O-nama/9/

抓取调试输出: https ://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fwww.protagora.hr%2FStranica%2FO-nama%2F9%2F

为什么当我使用浏览器访问页面时一切正常,但爬虫无法访问相同的数据?

请帮忙。

0 投票
4 回答
3583 浏览

python - 读取域内的所有页面

我正在使用 urllib 库来获取页面。通常我有顶级域名,我希望从该域的每个页面中提取一些信息。因此,如果我有 xyz.com,我希望我的代码从 xyz.com/about 等获取数据。这就是我正在使用的:

不过,这对我没有用。任何想法表示赞赏。

谢谢。-T