parse_items
我的蜘蛛中有这段代码
def parse_items(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select("//li[@class='mod-result-entry ']")
items = []
for site in sites[:2]:
item = MyItem()
item['title'] = myfilter(site.select('dl/a').select("string()").extract())
item['company'] = myfilter(site.select('dl/h2/em').select("string()").extract())
items.append(item)
return items
现在我想使用 Django 模型将项目保存在数据库中。一种工作正常的方法,我像这样简单地使用
item = MYapp.MyDjangoItem()
item.title = myfilter(site.select('dl/a').select("string()").extract())
item.save()
现在这工作正常
现在我想知道这种方法可以很好地保存在数据库中。
我的意思是为什么我们需要在 scrapy 中描述的 itempipeline 东西。这有什么好处吗。
开火,例如,这是我的管道
class MyPipeline(object):
def __init__(self):
self.ids_seen = set()
def process_item(self, item, spider):
Myitem = Myapp.DjamgoItem()
Myitem.title = item['title']
MyItem.save()
这样好吗
另外,我的代码将如何调用此管道。我对此感到困惑