0

我已经部署了一些 Scrapy 蜘蛛来抓取可以从 ScrapingHub 以 .csv 格式下载的数据。

其中一些蜘蛛有 FilePipeline,我用来将文件 (pdf) 下载到特定文件夹。有什么方法可以通过平台或 API 从 ScrapingHub 检索这些文件?

4

1 回答 1

1

尽管我必须仔细阅读集线器文档,但我很确定尽管有文件资源管理器,但没有生成实际文件,或者在抓取和支撑过程中它被忽略......我假设这样的事实是,如果你尝试部署您的项目之一,而不是与一个scrapy project() 对应的文件,除非您对您的设置和设置文件进行一些修改,然后scrapinghub 接受您的额外参数孤儿)...例如,如果您尝试在一个文件中有大量的起始 URL,然后使用一个真实的和函数将所有这些解析到你的蜘蛛中......就像一个魅力,但 scrapinghub 并没有考虑到这一点......

我假设您知道您可以直接从 Web 界面下载 CSV 或所需格式的文件...我个人在 Python 中使用抓取 Hub 客户端 API...我相信这三个库在这一点上都被我们弃用了,但是例如,您必须混合搭配才能获得功能齐全的脚...

我为一个非常知名的色情网站做这个兼职,我为他们做的是内容聚合这个,不要想太多的变态哈哈要赚钱,对吧?无论如何...通过使用 python 的抓取拥抱 API 客户端,我可以使用 API 密钥连接到我的帐户,并按照自己的方式进行操作;我个人认为存在一些限制,没有太大的限制只是真正困扰我的一件事是获取项目名称的功能已被客户端库的第一个版本弃用......我'我喜欢看到,当我解析我的项目时,蜘蛛将在其中运行不同作业的项目名称 Ergo the crawlz ...

SH 的 Python API 客户端

更棒的是我的生活是如此甜蜜,当你创建一个项目时运行你的蜘蛛并收集你所有的项目可以直接从网络界面下载这些文件,正如我提到的,但我能做的是将我的输出定位给我例如想要的效果。

我正在抓取一个网站,并且我正在获取一个媒体项目,比如视频,你总是需要三样东西。媒体的名称或视频的标题,可以访问视频的 URL 源或嵌入视频的 URL,然后您可以请求您需要的每个实例......当然还有什么的元数据是与视频媒体相关联的标签和类别。

我相信现在输出最多物品的最大爬行是 150,000,它是国外爬行,它类似于 15% 或 17% 的 dupla Fire 案例。然后,我使用 API 客户端通过其给定的字典或键值(不是字典顺便说一句)调用每个视频......当然,在我的情况下,我将始终使用所有三个键值,但我可以定位哪个 RN 的类别或标签或在其对应位置的键值下,仅输出项目及其整体(意味着仍然输出所有三个项目)仅打印出满足或匹配特定字符串或表达式的那些我想要让我能够真正参与的人我的内容相当有效。在这个特殊的scrapy项目中,我只是简单地从所有这些'pronz'中打印或创建一个.m3u播放列表!

直接从 SH 创建 .m3u 播放列表

于 2017-06-15T05:42:15.893 回答