python - scrapy 关注大型 XML 提要链接

Question

我正在使用带有 itertag 的 scrapy XMLFeedSpider 来循环超过 300 Megs XML 提要。

除了将这个大提要中的每个条目保存为一个项目之外，每个条目还有一些要抓取的进一步链接，这次是指向 html 页面的链接。

我知道 html 页面是使用 CrawlerSpider 爬行的，所以我试图找到一种方法来使用这种蜘蛛来跟踪来自大型 XML 提要的链接。

谢了，兄弟们

score 2 · Accepted Answer

首先阅读：http ://readthedocs.org/docs/scrapy/en/latest/intro/tutorial.html

我在scrapy中创建了一个项目。这是获取该特定 XML 的所有 url 的代码。您应该使用蜘蛛目录。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
from scrapy.item import BaseItem
from scrapy.spider import BaseSpider
from scrapy.selector import XmlXPathSelector
from scrapy.utils.spider import create_spider_for_request
from scrapy.utils.misc import load_object
from scrapy.utils.response import open_in_browser

class TestSpider(BaseSpider):
    name = "test"
    start_urls = ["http://fgeek.kapsi.fi/test.xml"]

    def parse(self, response):
        xpath = XmlXPathSelector(response)
        count = 0
        for url in xpath.select('entries/entry/url').extract():
            print url

python - scrapy 关注大型 XML 提要链接

1 回答 1

Related

Reference