这是我的 Scrapy 自定义正则表达式管道代码:
for p in item['code']:
for search_type, pattern in RegEx.regexp.iteritems():
s = re.findall(pattern, p)
if s:
return item
else:
raise DropItem
这是我的正则表达式代码:
class RegEx(object):
regexp = {
'email' : re.compile('liczba'), 'whatever' : re.compile(r'mit'), 'blu' : re.compile(r'houseLocked'),}
不是真正的编译正则表达式,仅用于演示目的。
这可行,但是一旦找到匹配项并触发“返回项目”,其余的就会被丢弃。
是否可以在 Scrapy 管道中继续迭代?
我已经在这里待了 4 天,尝试了你能想象到的每一种排列方式,但结果总是一样的。
我要么错过了显而易见的事情,要么这并不简单。
如果以这种方式不可能,任何对新路线的建议都非常感谢。