我想在彭博网站上抓取与迪士尼相关的页面。网址遵循模式为
"http://bloomberg.com/news/2013-07-08/disney-welcometohomepageofdisney"
所以,我写了下面的规则
rules = [
Rule(SgmlLinkExtractor(allow=('/news/*/disney*',)), follow=True),
]
但是上面的规则没有按我的意愿工作,我得到了与迪士尼无关的爬网页面输出。请帮助解决此规则。