问题标签 [scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapy InIt self.initialized() -- 没有初始化
我正在尝试使用 Scrapy 在 init 中登录网站,然后在确认登录后我想初始化并通过 start_urls 开始标准爬网。我不确定出了什么问题,但我对登录很清楚,每件事都确认了,但 parse_item 永远不会启动。任何帮助将不胜感激。
我可以得到它“================成功登录=================
但
我无法进入“===========================解析项目================ ===========
python-2.7 - Scraperwiki 抓取查询:使用 lxml 提取链接
我怀疑这是一个微不足道的查询,但希望有人可以帮助我解决我在尝试构建的刮板中使用 lxml 的查询。
https://scraperwiki.com/scrapers/thisisscraper/
我正在逐行阅读教程 3,到目前为止,我一直在尝试提取下一页链接。我可以使用 cssselect 来识别链接,但我不知道如何仅隔离 href 属性而不是整个锚标记。
任何人都可以帮忙吗?
php - 为什么我不能从这个网站上刮掉标题?
我正在使用 simple-html-dom 从指定站点上刮下标题。
我尝试过的任何其他网站都可以,例如 apple.com。
但是如果我输入pottermore.com,它不会输出任何东西。Pottermore 上面有 Flash 元素,但我试图刮掉标题的主屏幕没有 Flash,只有 html。
ruby - 我怎样才能让我的爬虫网站设计更改容错?
我用 ruby 写了一个网络爬虫。但是我正在抓取的网站已经改变了他们的设计。因此我的抓取器失败了。有没有一种聪明而简单的解决方案来解决这种刮板固有的问题?(例如……使用某种模式匹配、xpaths、比较 DOM 树……等等)
在上面的示例代码片段中,我在一个网页的 css 选择器的帮助下抓取上述网站以获取海报信息、发布日期和发布的评论。现在假设如果网站管理员更改了论坛的布局。css 选择器将失败,因此我的整个刮板将失败。我不想在每次网站布局更改时更新我的爬虫。那么有什么方法可以让我的刮板检测到网站布局的变化,并且能够正确找到到达所需目的地的路径吗?因为我无法知道网站什么时候会发生变化。我只是想让我的刮板自动化和容错
node.js - 脚本浏览器 Scapper
我可以使用什么来实现以下目标,编写浏览器脚本或以其他方式向服务器发出请求,登录,浏览站点,例如。查找链接并导航到这些链接。
现在,由于我对 NodeJS 感兴趣,所以我正在研究 node.io。它使您可以很容易地抓取网站,但问题是当我尝试发布(登录)时,我什么也得不到!
但我只是得到
即使登录失败,我应该在登录后进入console.log
吗?
然后我在想,通过编写浏览器脚本来实现这一点可能更好,它会更接近地模拟真实的请求?
facebook - Facebook Open Graph Scraping URL
我正在尝试开发“想要”和“拥有”按钮。
如果我使用Facebook 调试工具,它会告诉我最终 URL 是主页,这是因为页面已被重定向,这是我不想要的。我希望抓取获取的 URL。
由于最终 URL不是项目页面,因此抓取的信息不正确,并且调试工具抱怨缺少元数据等。我相信正确的信息在项目页面上,但由于重定向,不正确的信息是解析。
我的问题是:
1)为什么会这样?-答案:尾部斜线违反了我们的 ISAPI 规则
2)我该如何解决?-答:删除尾部斜杠或更新 ISAPI 规则
3) 我可以强制抓取工具使用特定的 URL 并忽略任何重定向吗?我正在使用 asp.net,因此任何示例都将不胜感激。
正确的页面之前被刮掉了,但现在它没有,我真的不知道是什么改变了这个......
提前致谢。
html - XPath:: 获取以下同级
我有以下 HTML 结构:我正在尝试构建一个强大的方法来提取第二个颜色摘要元素,因为 DOM 中会有很多这样的标签。
我正在尝试提取具有解码值的第二个“颜色摘要”td 元素。
我编写了以下 xpath,但没有得到第二个,我没有得到第二个 td 元素。
当我将它更改为 td[2] 到 td[1] 时,我得到了这两个元素。
python - BeautifulSoup:从锚标签中提取文本
我想提取:
image
来自标签的以下 src 的文本和div
类数据内的锚标记的文本
我成功地提取了 img src,但无法从锚标记中提取文本。
这是整个HTML 页面的链接。
这是我的代码:
我想要做的是提取图像 src (链接)和里面的标题div class=data
,例如:
应该提取:
Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)
php - PHP 抓取没有扩展的远程图像
我开发了一个图像抓取工具,可以从远程站点抓取特定图像,并在粘贴到文本字段时显示它们。该逻辑包括查找以 .jpg .jpeg 结尾的图像。等。
我遇到了一个问题,很多网站将通过 javascript 生成图像,或者没有将图像扩展名作为显示图像的一部分。示例网站如
www.express.com 和 www.underarmour.com 有这个问题等等。
我可以使用什么功能从设置的 URL 中查找图像,然后相应地显示它们没有文件扩展名?
再次感谢。
php - 获取页面html标签数量的好方法
我正在寻找一种好方法来做到这一点:我当前的方法似乎不允许超过 30-40 的搜索深度,即使在编辑php.ini
设置以希望增加默认执行时间以及最大内存使用量之后也是如此。基本上,一旦搜索深度超过这个数量,服务器就会崩溃。
这是我的代码(private function _ParseHtml($html, $depth = nDepth
):
以及scrape_Invoke()
函数的主要代码: