0

谁能帮我弄清楚如何潦草文件托管网站,如 filefactory.com?我不想下载所有托管的文件,只想用scrapy索引所有可用的文件。

我已经阅读了关于爬虫类的教程和文档。如果我只将网站主页作为起始 url,我就不会潦草整个网站,因为潦草取决于链接,但起始页面似乎不指向任何文件页面。这就是我正在考虑的问题,任何帮助将不胜感激!

4

1 回答 1

3

我有两条建议。第一个是确保您正确使用 Scrapy,第二个是收集更大的 URL 样本的最佳方法。

第一的:

确保您使用CrawlSpider来抓取网站。这是大多数人在想要获取已抓取页面上的所有链接并将其转换为 Scrapy 抓取的新请求时使用的方法。有关爬虫的更多信息,请参见http://doc.scrapy.org/en/latest/topics/spiders.html 。

如果你正确地构建了爬虫,它应该能够找到并爬取每个页面的大部分链接。

但是,如果包含下载链接的页面本身没有被 Scrapy 遇到的页面链接到,那么 Scrapy 就无法知道它们。

解决此问题的一种方法是在网站上使用多个入口点,在您知道 Scrapy 难以找到的区域中。您可以通过在start_urls变量中放置多个初始 url 来做到这一点。

第二

由于这很可能已经是您正在做的事情,因此这是我的下一个建议。如果您进入 Google,然后键入site:www.filefactory.com,您将看到一个链接,指向 Google 为 www.filefactory.com 编制索引的每个页面。确保您还检查site:filefactory.com,因为存在一些规范化问题。现在,当我这样做时,我看到大约有 600,000 个页面被编入索引。您应该做的是爬取谷歌,并首先收集所有这些索引网址,并将它们存储在数据库中。然后,使用所有这些在 FileFactory.com 网站上进行进一步搜索。

如果您拥有 Filefactory.com 的会员资格,您还可以对 scrapy 进行编程以提交表单或登录。这样做可能会允许您进一步访问。

于 2012-08-29T03:34:45.793 回答