问题标签 [scrapinghub]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-scraping - 登录网站,然后使用 Scraping Hub 收集数据
我已经使用scrapinghub两天了,正在寻找如何登录网站然后抓取数据。我看到了这个主题,但看不到如何将它应用到 Dash 中。
http://blog.scrapinghub.com/2012/10/26/filling-login-forms-automatically/
你能解释一下如何实现吗?
当我只使用 Scrapy 时,我会这样实现它:
但我没有看到如何使用 Scraping Hub 实现它:/
web-scraping - 使用 ScrapingHub 的 Dash 在某些网站上执行登录失败
当我尝试使用 ScrapingHub 的 Dash 登录时,我在某些网站的“日志”部分收到以下错误:
如何修复命中?
编辑:这里的身份验证方法:
python-2.7 - windows上的portia(scrapy / slybot)错误
我安装了portia并让它工作我注释了一些网站(看起来真的很好)但是当我尝试运行蜘蛛时我得到了一些错误并且没有任何东西被抓取
我在win 7上运行python 2.7.6
scrapinghub - 无法使用 Scrapinghub 抓取特定网站
我正在使用 scrapinghub 服务中的自动抓取功能。
在构建和部署 autoscraper 时,我发现我想抓取的站点永远不会返回任何请求,并且会在 3.5 分钟左右超时。
所以,我开始阅读文档,看看我是否能弄清楚为什么会发生这种情况(如何检查网站是否适合自动抓取)。
我按照这些步骤暂时从我的浏览器(chrome)中删除了 Javascript,发现我在查看我想抓取的网站时没有问题。
我的问题是,有可能听起来含糊不清,除了 Javascript,网站不可抓取的其他原因可能是什么?关于如何诊断这样的问题还有其他想法吗?
javascript - 无法解析选择器?
我目前在centos 中使用scrapy + splash + python。我已经编写了以下代码来从这里提取内容。
无法从 java 脚本弹出窗口中提取数据,例如 "href="javascript:void(0);" 任何人都指导我抓取。
蜘蛛代码:
以下错误:
python-2.7 - 如何为以下链接编写 rejax 和 xpath?
这是链接https://www.google.com/about/careers/search#!t=jo&jid=34154&我必须在工作详细信息下提取内容。
在这里,我添加了用于提取上述内容的 html 代码:
这是蜘蛛代码:
输出是:
javascript - 在带有splash的scrapy python中通过javascript实现下一页?
实际上,我的意图是实现 Next from "href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')"
,所以仅举个例子,我以 [this url][1] 为例。从这个 url 中你可以看到页面末尾的 Next,所以如果你观察到它们是通过href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')
其编写的 htmlhref
标记为#
,我只是想收集那些 href 标记,即使它们是#
。
当我运行上面的代码时,我得到的结果是" HTTP status code is not handled or not allowed"
,我的意思是没有,谁能告诉我如何通过这些""href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')""
函数实现 Next 以及为什么结果为空。我在 html 中观察到某种奇怪的东西,例如 Next 中的一个页面具有锚标记为"<a id="HRS_APPL_WRK_HRS_LST_NEXT" class="PSHYPERLINK" href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT');" tabindex="74" ptlinktgt="pt_replace" name="HRS_APPL_WRK_HRS_LST_NEXT"></a>"
提前致谢
输出 :
python - 在scrapinghub中运行时对日志计数的scrapy访问
我有一个小的scrapy 扩展,它查看爬虫的stats 对象,如果爬虫抛出了某种类型的日志消息(例如WARNING、CRITICAL、ERROR),它会向我发送一封电子邮件。
这些统计信息可以通过蜘蛛统计对象 (crawler.stats.get_stats()) 访问,例如:
如果我在 scrapinghub 上运行蜘蛛,日志统计信息不存在。还有很多其他方面(例如异常计数等),但缺少日志计数。有人知道如何将它们带到那里或如何在抓取中心上访问它们吗?
在蜘蛛关闭后,我还检查了“Dumping Scrapy stats”值。如果我在我的机器上运行它,日志计数就在那里,如果我在 scrapinghub 上运行它,日志计数就会丢失。
javascript - 如何在 portia 中呈现 javascript 页面?
我正在使用 portia 来使用 scrapinghub/splash 中间件渲染 JavaScript 页面。但在 portia 中加载作业页面时似乎出现以下错误。
错误:
您的网络浏览器必须启用 JavaScript 才能正确显示此应用程序。
平台:portia-scrapy + scrapinghub/splash。
请让我知道如何解决 mozila firefox 中的此错误。
注意:我也尝试过以下说明:
python - 飞溅 (/scrapinghub) - 等待 = 最多 10
我正在使用 scrapinghubs splash 来渲染 javascript 页面。它确实是一个很棒的工具,但我不明白为什么等待的最大值是10。有没有可能设置更高的值?
非常感谢。
最好的问候,朱利安