python - 从 Scrapinghub 下载项目的源代码

Question

我在Scrapinghub上部署了一个项目上部署了一个项目，我根本没有该代码的任何副本。

如何从 Scrapinghub 在我的本地主机上下载整个项目的代码？

score 6 · Accepted Answer

我能够使用下载项目代码

shub fetch-eggs project_id_here

project_id_here打开项目时可以从浏览器 URL 中获取的位置。

生成的文件将*.egg像使用 WinRAR 或您使用的任何其他工具的 ZIP 文件一样将其提取出来。

附加说明： - SHUB 没有用户友好的错误，一旦我使用不同的帐户登录 shub 并尝试下载另一个不同帐户的项目，所以请确保您登录到相同的 scrapinghub 帐户，其中您正在尝试下载的项目存在。

score -1 · Accepted Answer

据我所知，目前没有用于在 Scrapy Cloud 上检索项目源代码的公共 API。（如果错了，请纠正我。）
但确实可以在没有额外权限的情况下检索您的项目源代码。

当作业运行时，与项目相关的文件位于以下/app路径中：

job-<some-job-id>:/app$ ls -la /app                                                                                                                                                                                                                                                                                              
total 48                                                                                                                                                                                                                                                                                                                      
drwxr-xr-x  5 root   root     4096 Jul 27 17:13 .                                                                                                                                                                                                                                                                             
drwxr-xr-x 82 root   root     4096 Jul 28 04:09 ..                                                                                                                                                                                                                                                                            
-rw-r--r--  1 root   root    26695 Jul 27 17:13 __main__.egg                                                                                                                                                                                                                                                                  
drwxr-xr-x  2 nobody nogroup  4096 May 23 07:34 addons_eggs                                                                                                                                                                                                                                                                   
drwxr-xr-x  2 nobody nogroup  4096 Jul 24 14:27 python                                                                                                                                                                                                                                                                        
-rw-r--r--  1 root   root       14 Jul 24 14:27 requirements.txt

该文件__main__.egg包含所有项目源代码的位置。

因此，您可以：

选择一个当前正在运行的作业，访问它的控制台：https ://app.scrapinghub.com/p/[project_id]/[spider_id]/[job_id]/console
将.egg文件发送到您以后可能会检索到的地方，例如curl http://IP-address-of-your-own-server:8888/retrieve-file --data-binary @/app/__main__.egg（假设您已经准备好接收数据的服务）。

或者，我想你可以随时联系 Scrapinghub 支持寻求帮助。

python - 从 Scrapinghub 下载项目的源代码

2 回答 2

Related

Reference