python - 如何在 python 中使用 scrapy 潦草文件托管网站？

Question

谁能帮我弄清楚如何潦草文件托管网站，如 filefactory.com？我不想下载所有托管的文件，只想用scrapy索引所有可用的文件。

我已经阅读了关于爬虫类的教程和文档。如果我只将网站主页作为起始 url，我就不会潦草整个网站，因为潦草取决于链接，但起始页面似乎不指向任何文件页面。这就是我正在考虑的问题，任何帮助将不胜感激！

score 3 · Accepted Answer

我有两条建议。第一个是确保您正确使用 Scrapy，第二个是收集更大的 URL 样本的最佳方法。

第一的：

确保您使用CrawlSpider来抓取网站。这是大多数人在想要获取已抓取页面上的所有链接并将其转换为 Scrapy 抓取的新请求时使用的方法。有关爬虫的更多信息，请参见http://doc.scrapy.org/en/latest/topics/spiders.html 。

如果你正确地构建了爬虫，它应该能够找到并爬取每个页面的大部分链接。

但是，如果包含下载链接的页面本身没有被 Scrapy 遇到的页面链接到，那么 Scrapy 就无法知道它们。

解决此问题的一种方法是在网站上使用多个入口点，在您知道 Scrapy 难以找到的区域中。您可以通过在start_urls变量中放置多个初始 url 来做到这一点。

第二

由于这很可能已经是您正在做的事情，因此这是我的下一个建议。如果您进入 Google，然后键入site:www.filefactory.com，您将看到一个链接，指向 Google 为 www.filefactory.com 编制索引的每个页面。确保您还检查site:filefactory.com，因为存在一些规范化问题。现在，当我这样做时，我看到大约有 600,000 个页面被编入索引。您应该做的是爬取谷歌，并首先收集所有这些索引网址，并将它们存储在数据库中。然后，使用所有这些在 FileFactory.com 网站上进行进一步搜索。

还

如果您拥有 Filefactory.com 的会员资格，您还可以对 scrapy 进行编程以提交表单或登录。这样做可能会允许您进一步访问。

python - 如何在 python 中使用 scrapy 潦草文件托管网站？

1 回答 1

Related

Reference