如何抓取这样的页面:https ://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0
它是安全的,并且看起来需要推荐人。我无法使用 wget 或 httplib2 得到任何东西。
如果你浏览这个页面,你会得到一个列表,它可以在浏览器上运行,但不能在命令行上运行。 https://www.procom.ca/jobsearch.aspx
我对命令行获取感兴趣。
如何抓取这样的页面:https ://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0
它是安全的,并且看起来需要推荐人。我无法使用 wget 或 httplib2 得到任何东西。
如果你浏览这个页面,你会得到一个列表,它可以在浏览器上运行,但不能在命令行上运行。 https://www.procom.ca/jobsearch.aspx
我对命令行获取感兴趣。
正如您所怀疑的,它需要一个推荐人。这有效:
import urllib2
urlopen = urllib2.urlopen
Request = urllib2.Request
url = 'https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0'
headers = {'Referer' : 'http://www.stackoverflow.com'}
req = Request(url, None, headers)
handle = urlopen(req)
print handle.read()
您在 POST 或 Get 中发送什么数据,我建议您查看 Firebug Net Panel 中的 POST/GET 消息,在该页面中有许多隐藏值,我认为这些值与时间相关,并且在每个页面加载时都会发生变化,并且可能一次有效所以加载页面,获取这些值并将它们与 POST 消息一起发送,例如查看这些
<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" />
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" />
<input type="hidden" name="__LASTFOCUS" id="__LASTFOCUS" value="" />
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwULLTEwODIzNjMxMzEPFgIeEUdyaWRTb3J0RGlyZWN0aW9uCyo..." />