我正在使用HtmlCleaner2.1库来评估XPather插件针对 html 生成的 xpath 以从中抓取内容。但有时,HtmlCleaner 无法评估 xpath。
对于前 http://www.megaoutdoors.co.uk/norwegen-army-shirt-zipped-roll-top-collar-278-p.asp
对于产品标题,XPather 给出的 xpath 是//body/div[11]/div[6]/div[2]/form/div[1]/h1 但是当我使用 HtmlCleaner 评估它时失败了。
我们怎样才能克服这个问题。htmlcleaner 清理时页面结构是否会改变?
谢谢吉滕德拉
_