问题标签 [scrapinghub]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

176 问题

0 投票

1 回答

1097 浏览

python - ScrapingHub：ImportError：没有名为 firebase 的模块

我正在尝试将我抓取的数据放在我firebase的云帐户上，但是ImportError当我运行蜘蛛时我得到了这个。我尝试制作新项目，甚至在特定版本上重新安装firebaseand ，但没有帮助。shubPython

蜘蛛在我的机器上完美运行，并且没有显示任何 ImportErrors。这是错误日志。

有什么帮助吗？

2017-07-03T17:27:36.053

0 投票

1 回答

841 浏览

redirect - Scrapy：使用验证码重定向到确认页面

如何停止从目标网址重定向到另一个网址，该网址是带有验证码的网站的确认页面？

下面是我的代码：

现在它把我从一个网页重定向到另一个网页。我不知道为什么会这样。我第一次运行它时没有发生，但是当我第二次运行它时，一次又一次地运行它，我得到的只是它被重定向到另一个网页。

标记页面： http: //www.profilecanada.com/browse_by_category.cfm/

重定向到此页面： http: //www.profilecanada.com/confirmReqPage.cfm

谢谢您的帮助！

redirect web-scraping scrapy scrapinghub

2017-07-27T10:03:02.180

0 投票

2 回答

474 浏览

python - 从 Scrapinghub 下载项目的源代码

我在Scrapinghub上部署了一个项目上部署了一个项目，我根本没有该代码的任何副本。

如何从 Scrapinghub 在我的本地主机上下载整个项目的代码？

python scrapy scrapinghub

2017-07-27T16:17:29.093

0 投票

1 回答

37 浏览

scrapinghub - Scrapinghub 作业失败 - 无法诊断

蜘蛛在爬行的中间停止（运行 7 小时后，20K 请求）。作业状态为“失败”。即使日志中没有错误消息。日志看起来就像代码刚刚停止在特定代码行范围上运行，没有报告任何错误。它发生在 spider_idle 方法覆盖中。日志已启用，我可以看到所有前面的 INFO 消息都表明蜘蛛正常运行。我不知道如何在 scrapinghub 日志中启用 DEBUG 消息。

检查内存消耗 - 它是稳定的，至少在短期测试中，现在等待长期结果。

工作“失败”后如何检索更多信息？

scrapinghub

2017-07-30T20:25:49.277

0 投票

1 回答

966 浏览

scrapy - scrapy如何从scrapinghub的文件中加载url

我知道在本地工作时如何从外部源将数据加载到 Scrapy 蜘蛛中。但我努力寻找有关如何将此文件部署到 scrapinghub 以及在那里使用什么路径的任何信息。现在我使用 SH 文档中的这种方法 -在此处输入链接描述但收到 NONE 对象。

谢谢。我的设置文件

我得到的错误。

scrapy scrapinghub

2017-08-09T09:01:11.980

0 投票

1 回答

527 浏览

python - 如何使用 SQLAlchemy 和 pyodbc 将部署在 Scrapinghub 上的 Scrapy spider 连接到远程 SQL 服务器？

在尝试自己解决这个问题后，我需要一些帮助或朝着正确的方向轻推。

我在 Scrapinghub 上编写并部署了 Scrapy spider。该蜘蛛收集一些数据，完成后将这些数据保存到远程 Microsoft SQL Server。我使用 SQLAlchemy 作为 ORM 和 Pyodbc 作为驱动程序。为了连接到蜘蛛代码中的数据库，我使用：

在我的本地 PC 上使用 Win10 一切正常 - 蜘蛛成功连接到远程数据库并保存数据。但是如果我尝试在 Scrapinghub 上运行这个蜘蛛，我会得到一个错误： DBAPIError: (pyodbc.Error) ('01000', "[01000] [unixODBC][Driver Manager]Can't open lib 'ODBC Driver 13 for SQL Server' : file not found (0) (SQLDriverConnect)")

好像DRIVER零件有问题。我尝试更改DRIVER={ODBC Driver 13 for SQL Server}为DRIVER={SQL Server}orDRIVER={FreeTDS}但仍然遇到相同的错误can't open lib 'lib_name' : file not found。

Scrapinghub 是否支持连接到 Microsoft SQL Server？为了成功连接，我需要使用哪些驱动程序参数？

谢谢！

python sqlalchemy scrapy pyodbc scrapinghub

2017-08-09T12:11:32.943

0 投票

0 回答

159 浏览

python - 无法导入 ScrapinghubClient

Traceback（最近一次调用最后一次）：文件“”，第 1 行，在 ImportError：无法导入名称 ScrapinghubClient

为什么会这样？我有 Python 2.7.13 |Continuum Analytics, Inc.| （默认，2017 年 5 月 11 日，13:17:26） [MSC v.1500 64 位 (AMD64)] on win32

python scrapy scrapinghub

2017-08-21T07:31:39.830

0 投票

1 回答

315 浏览

python - Scrapinghub上如何使用pip安装中间件

我有一个通过 pip 使用中间件安装的 scrapy 项目。更具体地说是scrapy-random-useragent。

设置文件# - - 编码：utf-8 - -

scrapy 项目在我的机器上运行良好。
我使用链接的 github 项目在 scrapinghub 上进行部署。
我在 scrapinghub 上的日志中收到错误消息。

很明显，问题是No module named random_useragent。

但我不知道如何通过 Scrapinghub 上的 pip 安装该模块。

python scrapy pip scrapinghub

2017-09-02T19:01:47.480

0 投票

0 回答

673 浏览

python-3.x - Scrapinghub 的 Scrapy 项目失败

我的scrapy项目在我的本地机器上运行良好。但是，在部署到 Scrapinghub 时出现错误：

我将一些辅助函数打包到文件 myCrawlerHelper.py 中，并将它们导入到我的蜘蛛和 items.py 中。我相信问题与此有关。

我也使用飞溅。我还注意到错误消息包括 python 2.7，虽然我使用的是 3.6

我怎样才能摆脱这个问题？

python-3.x scrapy splash-screen scrapinghub

2017-09-07T16:35:47.107

0 投票

1 回答

105 浏览

scrapy - 在 scrapinghub 中序列化小数

我正在关注此链接中有关序列化程序的文档，我不确定是否缺少有关十进制序列化程序的文档？我用这样的scrapy字段定义了一个Item：

prize = scrapy.Field(serializer=Decimal, output_processor=TakeFirst())

当 scrapinhub 存储这个值时，我遇到了几个错误，尤其是包含逗号的数字。

有没有序列化小数的标准方法？

scrapy scrapinghub

2017-09-12T23:01:33.670

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapinghub]

Reference