我正在尝试使用 lxml 和 mechanize 废弃网站,但出现错误:
AttributeError:“NoneType”对象没有属性“xpath”
经过一番检查,我发现html
没有返回。
有趣的是,这段代码可以在其他网站上运行,只是无法在这个特定的网站上运行(http://www.selangortimes.com)
url = 'http://www.selangortimes.com'
br = mechanize.Browser()
br.set_handle_robots(False)
br.set_handle_refresh(False)
br.addheaders = [('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)')]
br.open(url)
resp = br.response()
html = lxml.html.parse(resp).getroot()
link_targets = [link.attrib.get('href') for link in html.xpath(expr)]
感谢你的帮助 :)
更新: 使用上述代码的工作网站示例 - http://www.themalaysianinsider.com