我有一个小问题,我整天都在努力解决。我认为这很简单,但我无法弄清楚答案。我使用用 Python 编写的scrapy。我需要从一些 div 内容中解析生产者名称。
div的方案是:
<div id=info>...
<html tag, can be p,strong,span,etc>
Producer(sometimes as Supplier): some code
</end tag>...
</div>
我使用下一个代码:
l.add_xpath('producer_name', "//div[@class='info']", re=u'Producer:\s*(.*)\s?</p>')
一切正常,直到我找到写“供应商”而不是“生产者”或不同结束标签的页面。
所以我尝试了类似的东西:
l.add_xpath('producer_name', "//div[@class='info']", re=u'[Supplier|Producer]:\s*(.*)\s?[</p>|<br>|</span>|</strong>]')
上面的代码不起作用。