“scraper”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1718 浏览

python - Scrapy InIt self.initialized() -- 没有初始化

我正在尝试使用 Scrapy 在 init 中登录网站，然后在确认登录后我想初始化并通过 start_urls 开始标准爬网。我不确定出了什么问题，但我对登录很清楚，每件事都确认了，但 parse_item 永远不会启动。任何帮助将不胜感激。

我可以得到它“================成功登录=================

但

我无法进入“===========================解析项目================ ===========

2012-06-30T06:13:40.547

0 投票

2 回答

528 浏览

python-2.7 - Scraperwiki 抓取查询：使用 lxml 提取链接

我怀疑这是一个微不足道的查询，但希望有人可以帮助我解决我在尝试构建的刮板中使用 lxml 的查询。

https://scraperwiki.com/scrapers/thisisscraper/

我正在逐行阅读教程 3，到目前为止，我一直在尝试提取下一页链接。我可以使用 cssselect 来识别链接，但我不知道如何仅隔离 href 属性而不是整个锚标记。

任何人都可以帮忙吗？

python-2.7 lxml scraper scraperwiki

2012-07-09T17:59:18.950

0 投票

3 回答

448 浏览

php - 为什么我不能从这个网站上刮掉标题？

我正在使用 simple-html-dom 从指定站点上刮下标题。

我尝试过的任何其他网站都可以，例如 apple.com。

但是如果我输入pottermore.com，它不会输出任何东西。Pottermore 上面有 Flash 元素，但我试图刮掉标题的主屏幕没有 Flash，只有 html。

php html simple-html-dom scraper

2012-07-12T21:29:05.327

0 投票

1 回答

540 浏览

ruby - 我怎样才能让我的爬虫网站设计更改容错？

我用 ruby 写了一个网络爬虫。但是我正在抓取的网站已经改变了他们的设计。因此我的抓取器失败了。有没有一种聪明而简单的解决方案来解决这种刮板固有的问题？（例如……使用某种模式匹配、xpaths、比较 DOM 树……等等）

在上面的示例代码片段中，我在一个网页的 css 选择器的帮助下抓取上述网站以获取海报信息、发布日期和发布的评论。现在假设如果网站管理员更改了论坛的布局。css 选择器将失败，因此我的整个刮板将失败。我不想在每次网站布局更改时更新我的爬虫。那么有什么方法可以让我的刮板检测到网站布局的变化，并且能够正确找到到达所需目的地的路径吗？因为我无法知道网站什么时候会发生变化。我只是想让我的刮板自动化和容错

ruby web-crawler scraper

2012-07-14T01:27:29.367

0 投票

2 回答

505 浏览

node.js - 脚本浏览器 Scapper

我可以使用什么来实现以下目标，编写浏览器脚本或以其他方式向服务器发出请求，登录，浏览站点，例如。查找链接并导航到这些链接。

现在，由于我对 NodeJS 感兴趣，所以我正在研究 node.io。它使您可以很容易地抓取网站，但问题是当我尝试发布（登录）时，我什么也得不到！

但我只是得到

即使登录失败，我应该在登录后进入console.log吗？

然后我在想，通过编写浏览器脚本来实现这一点可能更好，它会更接近地模拟真实的请求？

node.js scraper node.io

2012-07-22T04:35:12.987

0 投票

1 回答

3217 浏览

facebook - Facebook Open Graph Scraping URL

我正在尝试开发“想要”和“拥有”按钮。

如果我使用Facebook 调试工具，它会告诉我最终 URL 是主页，这是因为页面已被重定向，这是我不想要的。我希望抓取获取的 URL。

由于最终 URL不是项目页面，因此抓取的信息不正确，并且调试工具抱怨缺少元数据等。我相信正确的信息在项目页面上，但由于重定向，不正确的信息是解析。

我的问题是：

1）为什么会这样？-答案：尾部斜线违反了我们的 ISAPI 规则

2）我该如何解决？-答：删除尾部斜杠或更新 ISAPI 规则

3) 我可以强制抓取工具使用特定的 URL 并忽略任何重定向吗？我正在使用 asp.net，因此任何示例都将不胜感激。

正确的页面之前被刮掉了，但现在它没有，我真的不知道是什么改变了这个......

提前致谢。

facebook url redirect facebook-opengraph scraper

2012-07-23T17:00:12.850

0 投票

3 回答

288132 浏览

html - XPath:: 获取以下同级

我有以下 HTML 结构：我正在尝试构建一个强大的方法来提取第二个颜色摘要元素，因为 DOM 中会有很多这样的标签。

我正在尝试提取具有解码值的第二个“颜色摘要”td 元素。

我编写了以下 xpath，但没有得到第二个，我没有得到第二个 td 元素。

当我将它更改为 td[2] 到 td[1] 时，我得到了这两个元素。

html xpath siblings scraper

2012-07-25T19:33:43.070

0 投票

7 回答

140235 浏览

python - BeautifulSoup：从锚标签中提取文本

我想提取：

image来自标签的以下 src 的文本和
div类数据内的锚标记的文本

我成功地提取了 img src，但无法从锚标记中提取文本。

这是整个HTML 页面的链接。

这是我的代码：

我想要做的是提取图像 src （链接）和里面的标题div class=data，例如：

应该提取：

Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)

python html beautifulsoup tags scraper

2012-07-30T06:32:24.810

0 投票

2 回答

228 浏览

php - PHP 抓取没有扩展的远程图像

我开发了一个图像抓取工具，可以从远程站点抓取特定图像，并在粘贴到文本字段时显示它们。该逻辑包括查找以 .jpg .jpeg 结尾的图像。等。

我遇到了一个问题，很多网站将通过 javascript 生成图像，或者没有将图像扩展名作为显示图像的一部分。示例网站如

www.express.com 和 www.underarmour.com 有这个问题等等。

我可以使用什么功能从设置的 URL 中查找图像，然后相应地显示它们没有文件扩展名？

再次感谢。

php javascript jquery image scraper

2012-08-01T19:47:29.097

0 投票

2 回答

57 浏览

php - 获取页面html标签数量的好方法

我正在寻找一种好方法来做到这一点：我当前的方法似乎不允许超过 30-40 的搜索深度，即使在编辑php.ini设置以希望增加默认执行时间以及最大内存使用量之后也是如此。基本上，一旦搜索深度超过这个数量，服务器就会崩溃。

这是我的代码（private function _ParseHtml($html, $depth = nDepth）：

以及scrape_Invoke()函数的主要代码：

php dom curl depth scraper

2012-08-13T17:41:22.383

问题标签 [scraper]

Reference