问题标签 [scrapinghub]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ScrapingHub:ImportError:没有名为 firebase 的模块
我正在尝试将我抓取的数据放在我firebase
的云帐户上,但是ImportError
当我运行蜘蛛时我得到了这个。我尝试制作新项目,甚至在特定版本上重新安装firebase
and ,但没有帮助。shub
Python
蜘蛛在我的机器上完美运行,并且没有显示任何 ImportErrors。这是错误日志。
有什么帮助吗?
redirect - Scrapy:使用验证码重定向到确认页面
如何停止从目标网址重定向到另一个网址,该网址是带有验证码的网站的确认页面?
下面是我的代码:
现在它把我从一个网页重定向到另一个网页。我不知道为什么会这样。我第一次运行它时没有发生,但是当我第二次运行它时,一次又一次地运行它,我得到的只是它被重定向到另一个网页。
标记页面: http: //www.profilecanada.com/browse_by_category.cfm/
重定向到此页面: http: //www.profilecanada.com/confirmReqPage.cfm
谢谢您的帮助!
python - 从 Scrapinghub 下载项目的源代码
我在Scrapinghub上部署了一个项目上部署了一个项目,我根本没有该代码的任何副本。
如何从 Scrapinghub 在我的本地主机上下载整个项目的代码?
scrapinghub - Scrapinghub 作业失败 - 无法诊断
蜘蛛在爬行的中间停止(运行 7 小时后,20K 请求)。作业状态为“失败”。即使日志中没有错误消息。日志看起来就像代码刚刚停止在特定代码行范围上运行,没有报告任何错误。它发生在 spider_idle 方法覆盖中。日志已启用,我可以看到所有前面的 INFO 消息都表明蜘蛛正常运行。我不知道如何在 scrapinghub 日志中启用 DEBUG 消息。
检查内存消耗 - 它是稳定的,至少在短期测试中,现在等待长期结果。
工作“失败”后如何检索更多信息?
scrapy - scrapy如何从scrapinghub的文件中加载url
我知道在本地工作时如何从外部源将数据加载到 Scrapy 蜘蛛中。但我努力寻找有关如何将此文件部署到 scrapinghub 以及在那里使用什么路径的任何信息。现在我使用 SH 文档中的这种方法 -在此处输入链接描述但收到 NONE 对象。
谢谢。我的设置文件
我得到的错误。
python - 如何使用 SQLAlchemy 和 pyodbc 将部署在 Scrapinghub 上的 Scrapy spider 连接到远程 SQL 服务器?
在尝试自己解决这个问题后,我需要一些帮助或朝着正确的方向轻推。
我在 Scrapinghub 上编写并部署了 Scrapy spider。该蜘蛛收集一些数据,完成后将这些数据保存到远程 Microsoft SQL Server。我使用 SQLAlchemy 作为 ORM 和 Pyodbc 作为驱动程序。为了连接到蜘蛛代码中的数据库,我使用:
在我的本地 PC 上使用 Win10 一切正常 - 蜘蛛成功连接到远程数据库并保存数据。但是如果我尝试在 Scrapinghub 上运行这个蜘蛛,我会得到一个错误:
DBAPIError: (pyodbc.Error) ('01000', "[01000] [unixODBC][Driver Manager]Can't open lib 'ODBC Driver 13 for SQL Server' : file not found (0) (SQLDriverConnect)")
好像DRIVER
零件有问题。我尝试更改DRIVER={ODBC Driver 13 for SQL Server}
为DRIVER={SQL Server}
orDRIVER={FreeTDS}
但仍然遇到相同的错误can't open lib 'lib_name' : file not found
。
Scrapinghub 是否支持连接到 Microsoft SQL Server?为了成功连接,我需要使用哪些驱动程序参数?
谢谢!
python - 无法导入 ScrapinghubClient
Traceback(最近一次调用最后一次):文件“”,第 1 行,在 ImportError:无法导入名称 ScrapinghubClient
为什么会这样?我有 Python 2.7.13 |Continuum Analytics, Inc.| (默认,2017 年 5 月 11 日,13:17:26) [MSC v.1500 64 位 (AMD64)] on win32
python - Scrapinghub上如何使用pip安装中间件
我有一个通过 pip 使用中间件安装的 scrapy 项目。更具体地说是scrapy-random-useragent。
设置文件# - - 编码:utf-8 - -
scrapy 项目在我的机器上运行良好。
我使用链接的 github 项目在 scrapinghub 上进行部署。
我在 scrapinghub 上的日志中收到错误消息。
很明显,问题是No module named random_useragent
。
但我不知道如何通过 Scrapinghub 上的 pip 安装该模块。
python-3.x - Scrapinghub 的 Scrapy 项目失败
我的scrapy项目在我的本地机器上运行良好。但是,在部署到 Scrapinghub 时出现错误:
我将一些辅助函数打包到文件 myCrawlerHelper.py 中,并将它们导入到我的蜘蛛和 items.py 中。我相信问题与此有关。
我也使用飞溅。我还注意到错误消息包括 python 2.7,虽然我使用的是 3.6
我怎样才能摆脱这个问题?
scrapy - 在 scrapinghub 中序列化小数
我正在关注此链接中有关序列化程序的文档,我不确定是否缺少有关十进制序列化程序的文档?我用这样的scrapy字段定义了一个Item:
prize = scrapy.Field(serializer=Decimal, output_processor=TakeFirst())
当 scrapinhub 存储这个值时,我遇到了几个错误,尤其是包含逗号的数字。
有没有序列化小数的标准方法?