“scraper”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

355 浏览

ruby - Nokogiri Xpath 双循环

我想要做的是 pul 包含 td 和类默认值的代码块。这工作得很好。但是接下来我需要整理出代码块的不同部分。当我尝试使用第二个 xpath 调用执行此操作时，它所做的是每次打印每个块中的所有 comhead

当我只打印块时，每个块都会打印一次并包含注释标题和注释。当我尝试运行 xpath 时，它会打印出在 doc 中找到的每个 comhead，并且似乎忽略了 block 变量。

关于如何完成这项工作的任何想法？我对 xpath 有什么误解？

更新：

2011-09-21T18:06:53.577

0 投票

2 回答

1363 浏览

php - 长时间运行的 PHP 爬虫返回 500 内部错误

大多数情况下，我在谷歌上找到了我的问题的答案，但现在我被困住了。我正在研究一个刮板脚本，它首先刮掉网站的一些用户名，然后获取用户的每一个细节。涉及到两个爬虫，第一个通过主页，获取名字，然后获取其个人资料页面的详细信息，然后前进到下一页......我正在抓取的第一个站点总共有64个名字，显示在一个主页上，而第二个页面有4个页面，显示超过365个名字。

第一个效果很好，但是第二个不断让我收到 500 内部错误。我试图限制脚本，只抓取几个名字，这就像魅力一样，所以我更确定脚本本身没问题！我的 php ini 文件中的 max_execution_time 设置为 1500，所以我想这也不是问题，但是有一些原因导致错误......例如，不确定在每 10 个名称之后添加一个睡眠命令是否可以解决我的情况，但是好吧，我现在正在尝试！

因此，如果你们中的任何人知道什么可以帮助解决这种情况，我将不胜感激！

在此先感谢，z

php scrape scraper

2011-09-22T10:48:46.600

0 投票

1 回答

134 浏览

ruby - FF Xpather to Nokogiri -- 我可以复制和粘贴吗？

我是手动做的，然后我卡住了，我不知道为什么它不起作用。我下载了 xpather，它给了我： /html/body/center/table/tbody/tr[3]/td/table 作为我想要的项目的路径。我已经手动确认这是正确的，但是当我将它粘贴到我的代码中时，它所做的只是返回 nil

这是我的代码：

如果我做这样的事情：

我从页面中获得大量文本。我可以继续添加元素，直到我点击 tbody 然后它再次返回 nil。我什至尝试过类似的东西： //html/body/center/table/*/tr[3] 并且做了同样的事情返回 nil

我错过了什么？

ruby nokogiri scraper

2011-09-24T17:06:03.780

0 投票

5 回答

6023 浏览

facebook - 使用区域设置抓取的 Facebook 元标签不起作用

我的网站是多语言的，我有一个类似 FB 的按钮。我想有不同语言的类似帖子。

根据 Facebook 文档，如果我使用元标记 og:locale 和 og:locale:alternate，刮板将通过参数“locale”和标题“X-Facebook-Locale”获取我的站点信息，但它既不发送也不发送.（https://developers.facebook.com/docs/beta/opengraph/internationalization/）。所以帖子总是以 en_US 结尾。

有人有同样的问题吗？

facebook facebook-like locale scraper

2011-09-30T18:34:31.330

0 投票

1 回答

1521 浏览

php - 雅虎问答 API + php Scraper

我找到了一个理论上符合我需求的php 脚本，但是我无法让它工作，我想知道脚本是否已经过时或者我做错了什么。

脚本如下所示：

但我得到的不是有效的输出：

我用其他关键字尝试过，但结果总是一样的。

这部分$question_id = 'test';不包含在官方脚本中，但没有它我不断得到Question ID is not set!.

我还尝试更改它，将其添加到脚本中的另一个位置等。我能想到的一切，但结果总是那个数组除了[Link]

由于我的 php 经验几乎为零，所以我什至没有从哪里开始寻找错误：/ 如果 some1 能指出我正确的方向，我会很高兴！

问候！

ps 当然“MYAPPID”更改为我真正的雅虎应用程序ID。

php yahoo-api scraper

2011-10-15T22:14:56.867

0 投票

3 回答

8190 浏览

google-search-api - 如何以编程方式获取 Google SEO/搜索排名信息？API 还是 Scraper？

我正在尝试找到一种程序化方式来获取 2 个值：

域在特定字词的 Google 结果中的位置
该术语的 Google 结果数

目前我的客户正在使用一些刮板软件，但涉及手动步骤。

是否有我可以访问的 API 可以获取此信息？还是我应该探索一些全自动刮板方法？

（我知道以前有人问过这个问题，但我的问题有点不同。我也很好奇自从之前问过这个问题以来情况是否发生了变化。）谢谢！

google-search-api scraper

2011-10-31T16:48:23.833

0 投票

1 回答

497 浏览

facebook - facebook 刮板不喜欢我的一些页面

我有一个基于 prestashop 的网上商店。我正在尝试集成 Like 按钮。我观察到在某些页面上它会在其他一些页面上刮掉缩略图。我找到了向我们展示了刮板所看到的确切内容的页面，所以主页没问题：http: //www.promotion.ro/shop http://developers.facebook.com/tools/debug/og/echo?q =http%3A%2F%2Fpromotion.ro%2Fshop%2Fen%2F

但产品页面没有： http: //promotion.ro/shop/en/christmas-gifts/3009-christmas-decoration-set.html http://developers.facebook.com/tools/debug/og/echo? q=http%3A%2F%2Fpromotion.ro%2Fshop%2Fen%2Fchristmas-gifts%2F3009-christmas-decoration-set.html

我究竟做错了什么？

如果我插入元数据，它仍然不会刮。

facebook prestashop scraper

2011-11-03T13:27:39.320

0 投票

1 回答

1753 浏览

php - PHP html 抓取

这是我在网站上的第一篇文章，所以请多多包涵

好的，所以我是 PHP 的完整初学者，我的项目对它有特定的需求。我希望你们中的一些人可以提供帮助！

基本上，我想抓取一个网页并访问某个 html 表及其信息。我需要解析出这些信息并简单地将其格式化为所需的结果。

那么从哪里开始.....继承人我到目前为止写的php

该 URL 包含我需要的表。我的代码将简单地回显那个确切的表格。

但是，这是我的问题，我绝不是 reg-ex 专家，我需要以某种格式显示表格中的数据。我想回显一个包含许多 sql 插入语句的 xml 文件，如下所示：

我希望我已经提供了足够的信息，我将非常感谢你们善良的人们的任何帮助。

提前致谢。

php html-parsing scraper screen-scraping

2011-11-03T22:55:29.410

0 投票

1 回答

439 浏览

php - 使用 PHP 抓取网站

可能重复：
抓取网页内容
 如何从网站抓取所有内容？

我正在尝试从网站cover.com上抓取一些boxscore 数据，而对于我的生活，我不知道该怎么做。我想从某个日期获取 boxscores，但是当我file_get_html从simplehtmldom包中使用时，页面默认为今天游戏的视图状态。关于如何获取某天游戏的网址的任何想法？提前致谢！

php dom scraper

2011-11-12T21:51:14.617

0 投票

2 回答

2371 浏览

ruby - 使用 Ruby/Mechanize 在选定元素之后选择下一个元素

我无法专门找到这个问题，希望我没有错认为它是一个旧问题的新变体。

我希望能够在（不一致的）p.red 元素 text() 之后选择表格，其中 'p' 不包含文本“Alphabetical”但包含文本“OVERALL”..

DOM 看起来像这样：

该表在每一页都有不同的计数。

我想获得那个 p 标签的 text() ，但也想直接在它之后获得表格。同样，text() 包含“OVERALL”但不包含“ALPHABETICAL”.. 我应该构建一个数组并 .reject() 没有匹配的元素吗？目前我不确定，而且我对使用 Ruby 和 Mechanize 还很陌生，在此先感谢您的帮助！

ruby dom mechanize scraper

2011-11-21T03:48:23.167

问题标签 [scraper]

Reference