我正在尝试使用scrapy,并且我正在尝试使用这个荒谬的html。使用 Xpath Checker firefox 插件,这是表中的第一行:
id('page')/x:table/x:tbody/x:tr[1]/x:td[2]/x:table/x:tbody/x:tr/x:td/x:table/x:tbody/x:tr[1]
如果我将该 xpath 复制到:
def parse(self, response):
hxs = HtmlXParseSelector(response)
data = hx.select("id('page')/x:table/x:tbody/x:tr[1]/x:td[2]/x:table/x:tbody/x:tr/x:td/x:table/x:tbody/x:tr[1]")
raise ValueError("Invalid XPath: %s" % xpath)
为什么它不能识别这个 xpath?
另外,scrapy 有没有办法从第 3 行及以后获取所有数据?前两行只是标题和图例。