问题标签 [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
355 浏览

ruby - Nokogiri Xpath 双循环

我想要做的是 pul 包含 td 和类默认值的代码块。这工作得很好。但是接下来我需要整理出代码块的不同部分。当我尝试使用第二个 xpath 调用执行此操作时,它所做的是每次打印每个块中的所有 comhead

当我只打印块时,每个块都会打印一次并包含注释标题和注释。当我尝试运行 xpath 时,它会打印出在 doc 中找到的每个 comhead,并且似乎忽略了 block 变量。

关于如何完成这项工作的任何想法?我对 xpath 有什么误解?

更新:

0 投票
2 回答
1363 浏览

php - 长时间运行的 PHP 爬虫返回 500 内部错误

大多数情况下,我在谷歌上找到了我的问题的答案,但现在我被困住了。我正在研究一个刮板脚本,它首先刮掉网站的一些用户名,然后获取用户的每一个细节。涉及到两个爬虫,第一个通过主页,获取名字,然后获取其个人资料页面的详细信息,然后前进到下一页......我正在抓取的第一个站点总共有64个名字,显示在一个主页上,而第二个页面有4个页面,显示超过365个名字。

第一个效果很好,但是第二个不断让我收到 500 内部错误。我试图限制脚本,只抓取几个名字,这就像魅力一样,所以我更确定脚本本身没问题!我的 php ini 文件中的 max_execution_time 设置为 1500,所以我想这也不是问题,但是有一些原因导致错误......例如,不确定在每 10 个名称之后添加一个睡眠命令是否可以解决我的情况,但是好吧,我现在正在尝试!

因此,如果你们中的任何人知道什么可以帮助解决这种情况,我将不胜感激!

在此先感谢,z

0 投票
1 回答
134 浏览

ruby - FF Xpather to Nokogiri -- 我可以复制和粘贴吗?

我是手动做的,然后我卡住了,我不知道为什么它不起作用。我下载了 xpather,它给了我: /html/body/center/table/tbody/tr[3]/td/table 作为我想要的项目的路径。我已经手动确认这是正确的,但是当我将它粘贴到我的代码中时,它所做的只是返回 nil

这是我的代码:

如果我做这样的事情:

我从页面中获得大量文本。我可以继续添加元素,直到我点击 tbody 然后它再次返回 nil。我什至尝试过类似的东西: //html/body/center/table/*/tr[3] 并且做了同样的事情返回 nil

我错过了什么?

0 投票
5 回答
6023 浏览

facebook - 使用区域设置抓取的 Facebook 元标签不起作用

我的网站是多语言的,我有一个类似 FB 的按钮。我想有不同语言的类似帖子。

根据 Facebook 文档,如果我使用元标记 og:locale 和 og:locale:alternate,刮板将通过参数“locale”和标题“X-Facebook-Locale”获取我的站点信息,但它既不发送也不发送.(https://developers.facebook.com/docs/beta/opengraph/internationalization/)。所以帖子总是以 en_US 结尾。

有人有同样的问题吗?

0 投票
1 回答
1521 浏览

php - 雅虎问答 API + php Scraper

我找到了一个理论上符合我需求的php 脚本,但是我无法让它工作,我想知道脚本是否已经过时或者我做错了什么。

脚本如下所示:

但我得到的不是有效的输出:

我用其他关键字尝试过,但结果总是一样的。

这部分$question_id = 'test';不包含在官方脚本中,但没有它我不断得到Question ID is not set!.

我还尝试更改它,将其添加到脚本中的另一个位置等。我能想到的一切,但结果总是那个数组除了[Link]

由于我的 php 经验几乎为零,所以我什至没有从哪里开始寻找错误:/ 如果 some1 能指出我正确的方向,我会很高兴!

问候!

ps 当然“MYAPPID”更改为我真正的雅虎应用程序ID。

0 投票
3 回答
8190 浏览

google-search-api - 如何以编程方式获取 Google SEO/搜索排名信息?API 还是 Scraper?

我正在尝试找到一种程序化方式来获取 2 个值:

  • 域在特定字词的 Google 结果中的位置
  • 该术语的 Google 结果数

目前我的客户正在使用一些刮板软件,但涉及手动步骤。

是否有我可以访问的 API 可以获取此信息?还是我应该探索一些全自动刮板方法?

(我知道以前有人问过这个问题,但我的问题有点不同。我也很好奇自从之前问过这个问题以来情况是否发生了变化。)谢谢!

0 投票
1 回答
497 浏览

facebook - facebook 刮板不喜欢我的一些页面

我有一个基于 prestashop 的网上商店。我正在尝试集成 Like 按钮。我观察到在某些页面上它会在其他一些页面上刮掉缩略图。我找到了向我们展示了刮板所看到的确切内容的页面,所以主页没问题:http: //www.promotion.ro/shop http://developers.facebook.com/tools/debug/og/echo?q =http%3A%2F%2Fpromotion.ro%2Fshop%2Fen%2F

但产品页面没有: http: //promotion.ro/shop/en/christmas-gifts/3009-christmas-decoration-set.html http://developers.facebook.com/tools/debug/og/echo? q=http%3A%2F%2Fpromotion.ro%2Fshop%2Fen%2Fchristmas-gifts%2F3009-christmas-decoration-set.html

我究竟做错了什么?

如果我插入元数据,它仍然不会刮。

0 投票
1 回答
1753 浏览

php - PHP html 抓取

这是我在网站上的第一篇文章,所以请多多包涵

好的,所以我是 PHP 的完整初学者,我的项目对它有特定的需求。我希望你们中的一些人可以提供帮助!

基本上,我想抓取一个网页并访问某个 html 表及其信息。我需要解析出这些信息并简单地将其格式化为所需的结果。

那么从哪里开始.....继承人我到目前为止写的php

该 URL 包含我需要的表。我的代码将简单地回显那个确切的表格。

但是,这是我的问题,我绝不是 reg-ex 专家,我需要以某种格式显示表格中的数据。我想回显一个包含许多 sql 插入语句的 xml 文件,如下所示:

我希望我已经提供了足够的信息,我将非常感谢你们善良的人们的任何帮助。

提前致谢。

0 投票
1 回答
439 浏览

php - 使用 PHP 抓取网站

可能重复:
抓取网页内容
如何从网站抓取所有内容?

我正在尝试从网站cover.com上抓取一些boxscore 数据,而对于我的生活,我不知道该怎么做。我想从某个日期获取 boxscores,但是当我file_get_htmlsimplehtmldom包中使用时,页面默认为今天游戏的视图状态。关于如何获取某天游戏的网址的任何想法?提前致谢!

0 投票
2 回答
2371 浏览

ruby - 使用 Ruby/Mechanize 在选定元素之后选择下一个元素

我无法专门找到这个问题,希望我没有错认为它是一个旧问题的新变体。

我希望能够在(不一致的)p.red 元素 text() 之后选择表格,其中 'p' 不包含文本“Alphabetical”但包含文本“OVERALL”..

DOM 看起来像这样:

  • 该表在每一页都有不同的计数。

我想获得那个 p 标签的 text() ,但也想直接在它之后获得表格。同样,text() 包含“OVERALL”但不包含“ALPHABETICAL”.. 我应该构建一个数组并 .reject() 没有匹配的元素吗?目前我不确定,而且我对使用 Ruby 和 Mechanize 还很陌生,在此先感谢您的帮助!