python - Python Scrapy - 基于 mimetype 的过滤器，以避免非文本文件下载

Question

我有一个正在运行的 scrapy 项目，但它占用大量带宽，因为它会尝试下载大量二进制文件（zip、tar、mp3、..etc）。

我认为最好的解决方案是根据 mimetype (Content-Type:) HTTP 标头过滤请求。我查看了scrapy代码，发现了这个设置：

DOWNLOADER_HTTPCLIENTFACTORY = 'scrapy.core.downloader.webclient.ScrapyHTTPClientFactory'

我将其更改为： DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.webclients.ScrapyHTTPClientFactory'

并玩了一点ScrapyHTTPPageGetter，这里是突出显示的编辑：

class ScrapyHTTPPageGetter(HTTPClient):
    # this is my edit
    def handleEndHeaders(self):
        if 'Content-Type' in self.headers.keys():
            mimetype = str(self.headers['Content-Type'])
            # Actually I need only the html, but just in 
            # case I've preserved all the text
            if mimetype.find('text/') > -1: 
                # Good, this page is needed
                self.factory.gotHeaders(self.headers)
            else:
                self.factory.noPage(Exception('Incorrect Content-Type'))

我觉得这是错误的，在确定它是不需要的 mimetype 之后，我需要更友好的方式来取消/删除请求。而不是等待整个数据被下载。

编辑：
我特别要求这部分self.factory.noPage(Exception('Incorrect Content-Type'))是取消请求的正确方法。

更新 1：
我当前的设置已经使 Scrapy 服务器崩溃，所以请不要尝试使用上面相同的代码来解决问题。

更新 2：
我已经设置了一个基于 Apache 的网站，用于使用以下结构进行测试：

/var/www/scrapper-test/Zend -> /var/www/scrapper-test/Zend.zip (symlink)
/var/www/scrapper-test/Zend.zip

我注意到 Scrapy 会丢弃带有.zip扩展名的那些，但会丢弃没有 .zip 的那个，即使它只是一个符号链接。

score 11 · Accepted Answer

我构建了这个中间件来排除任何不在正则表达式白名单中的响应类型：

from scrapy.http.response.html import HtmlResponse
from scrapy.exceptions import IgnoreRequest
from scrapy import log
import re

class FilterResponses(object):
    """Limit the HTTP response types that Scrapy dowloads."""

    @staticmethod
    def is_valid_response(type_whitelist, content_type_header):
        for type_regex in type_whitelist:
            if re.search(type_regex, content_type_header):
                return True
        return False

    def process_response(self, request, response, spider):
        """
        Only allow HTTP response types that that match the given list of 
        filtering regexs
        """
        # each spider must define the variable response_type_whitelist as an
        # iterable of regular expressions. ex. (r'text', )
        type_whitelist = getattr(spider, "response_type_whitelist", None)
        content_type_header = response.headers.get('content-type', None)
        if not type_whitelist:
            return response
        elif not content_type_header:
            log.msg("no content type header: {}".format(response.url), level=log.DEBUG, spider=spider)
            raise IgnoreRequest()
        elif self.is_valid_response(type_whitelist, content_type_header):
            log.msg("valid response {}".format(response.url), level=log.DEBUG, spider=spider)
            return response
        else:
            msg = "Ignoring request {}, content-type was not in whitelist".format(response.url)
            log.msg(msg, level=log.DEBUG, spider=spider)
            raise IgnoreRequest()

要使用它，请将其添加到 settings.py：

DOWNLOADER_MIDDLEWARES = {
    '[project_name].middlewares.FilterResponses': 999,
}

score 0 · Accepted Answer

0

可能为时已晚。您可以使用 Accept 标头过滤您要查找的数据。

于 2013-01-04T12:22:02.150 回答

score -1 · Accepted Answer

解决方案是设置Node.js代理并配置 Scrapy 以通过http_proxy环境变量使用它。

代理应该做的是：

从 Scrapy 获取 HTTP 请求并将其发送到被爬取的服务器。然后它将响应返回给 Scrapy，即拦截所有 HTTP 流量。
对于二进制文件（基于您实现的启发式），它会向403 ForbiddenScrapy 发送错误并立即关闭请求/响应。这有助于节省时间、流量和 Scrapy 不会崩溃。

示例代理代码

这确实有效！

http.createServer(function(clientReq, clientRes) {
    var options = {
        host: clientReq.headers['host'],
        port: 80,
        path: clientReq.url,
        method: clientReq.method,
        headers: clientReq.headers
    };


    var fullUrl = clientReq.headers['host'] + clientReq.url;
    
    var proxyReq = http.request(options, function(proxyRes) {
        var contentType = proxyRes.headers['content-type'] || '';
        if (!contentType.startsWith('text/')) {
            proxyRes.destroy();            
            var httpForbidden = 403;
            clientRes.writeHead(httpForbidden);
            clientRes.write('Binary download is disabled.');
            clientRes.end();
        }
        
        clientRes.writeHead(proxyRes.statusCode, proxyRes.headers);
        proxyRes.pipe(clientRes);
    });

    proxyReq.on('error', function(e) {
        console.log('problem with clientReq: ' + e.message);
    });

    proxyReq.end();
  
}).listen(8080);

python - Python Scrapy - 基于 mimetype 的过滤器，以避免非文本文件下载

3 回答 3

示例代理代码

Related

Reference