我正在使用Python 请求模块对网站进行数据挖掘。作为数据挖掘的一部分,我必须通过 HTTP POST 表单并通过检查生成的 URL 来检查它是否成功。我的问题是,在 POST 之后,是否可以请求服务器不发送整个页面?我只需要检查 URL,但我的程序会下载整个页面并消耗不必要的带宽。代码很简单
import requests
r = requests.post(URL, payload)
if 'keyword' in r.url:
success
fail
我正在使用Python 请求模块对网站进行数据挖掘。作为数据挖掘的一部分,我必须通过 HTTP POST 表单并通过检查生成的 URL 来检查它是否成功。我的问题是,在 POST 之后,是否可以请求服务器不发送整个页面?我只需要检查 URL,但我的程序会下载整个页面并消耗不必要的带宽。代码很简单
import requests
r = requests.post(URL, payload)
if 'keyword' in r.url:
success
fail
一个简单的解决方案,如果它对您来说是可行的。是走低级。使用套接字库。例如,您需要发送一个在其正文中包含一些数据的 POST。我在我的 Crawler 中将它用于一个站点。
import socket
from urllib import quote # POST body is escaped. use quote
req_header = "POST /{0} HTTP/1.1\r\nHost: www.yourtarget.com\r\nUser-Agent: For the lulz..\r\nContent-Type: application/x-www-form-urlencoded; charset=UTF-8\r\nContent-Length: {1}"
req_body = quote("data1=yourtestdata&data2=foo&data3=bar=")
req_url = "test.php"
header = req_header.format(req_url,str(len(req_body))) #plug in req_url as {0}
#and length of req_body as Content-length
s = socket.socket(socket.AF_INET,socket.SOCK_STREAM) #create a socket
s.connect(("www.yourtarget.com",80)) #connect it
s.send(header+"\r\n\r\n"+body+"\r\n\r\n") # send header+ two times CR_LF + body + 2 times CR_LF to complete the request
page = ""
while True:
buf = s.recv(1024) #receive first 1024 bytes(in UTF-8 chars), this should be enought to receive the header in one try
if not buf:
break
if "\r\n\r\n" in page: # if we received the whole header(ending with 2x CRLF) break
break
page+=buf
s.close() # close the socket here. which should close the TCP connection even if data is still flowing in
# this should leave you with a header where you should find a 302 redirected and then your target URL in "Location:" header statement.
该网站有可能使用Post/Redirect/Get (PRG)模式。如果是这样,那么不遵循重定向并Location
从响应中读取标头就足够了。
例子
>>> import requests
>>> response = requests.get('http://httpbin.org/redirect/1', allow_redirects=False)
>>> response.status_code
302
>>> response.headers['location']
'http://httpbin.org/get'
如果您需要更多关于如果您遵循重定向会得到什么的信息,那么您可以HEAD
在标头中给出的 url 上使用Location
。
例子
>>> import requests
>>> response = requests.get('http://httpbin.org/redirect/1', allow_redirects=False)
>>> response.status_code
302
>>> response.headers['location']
'http://httpbin.org/get'
>>> response2 = requests.head(response.headers['location'])
>>> response2.status_code
200
>>> response2.headers
{'date': 'Wed, 07 Nov 2012 20:04:16 GMT', 'content-length': '352', 'content-type':
'application/json', 'connection': 'keep-alive', 'server': 'gunicorn/0.13.4'}
如果您提供更多数据会有所帮助,例如,您尝试请求的示例 URL。话虽如此,在我看来,通常您使用以下依赖于重定向或 HTTP 404 错误的算法在 POST 请求后检查您是否有正确的 URL:
if original_url == returned request url:
correct url to a correctly made request
else:
wrong url and a wrongly made request
如果是这种情况,您可以在这里做的是使用 Pythonrequests
库中的 HTTP HEAD 请求(另一种类型的 HTTP 请求,如 GET、POST 等)来仅获取标头而不获取页面正文。然后,您将检查响应代码和重定向 URL(如果存在)以查看您是否向有效 URL 发出了请求。
例如:
def attempt_url(url):
'''Checks the url to see if it is valid, or returns a redirect or error.
Returns True if valid, False otherwise.'''
r = requests.head(url)
if r.status_code == 200:
return True
elif r.status_code in (301, 302):
if r.headers['location'] == url:
return True
else:
return False
elif r.status_code == 404:
return False
else:
raise Exception, "A status code we haven't prepared for has arisen!"
如果这不是您正在寻找的内容,那么有关您的要求的更多详细信息会有所帮助。至少,这可以让您获得状态代码和标题,而无需提取所有页面数据。