1

我正在学习 python,作为我的第一个项目,我想登录几个航空公司网站并获取我的飞行常客里程信息。我已经成功地能够登录并抓取美国航空公司和联合航空公司,但我无法在 Delta、USairways 和 Britishairways 上执行此操作。

我一直在使用的方法是监视来自 Fiddler2、Chrome 或 Firebug 的网络流量。Wireshark 目前似乎太复杂了。

为了让我的脚本与 American 和 United 一起抓取,我所做的只是观察 fiddler2 上的流量,复制 FORM DATA 和 REQUEST HEADER DATA,然后使用 python 3rd 方请求库来访问数据。很简单。很容易。其他航空公司的网站给我带来了很多麻烦。

让我们具体谈谈英国航空公司。下面是我登录虚拟 BA 帐户时从 fiddler 那里获取的 FORM DATA 和 REQUEST HEADER DATA 的图片。我还包括了我一直在使用的测试脚本。我写了两个不同的版本。一种使用 Requests 库,另一种使用 urllib。它们都产生相同的错误,但我认为如果他们没有导入 Requests 库,我会同时提供两者以使某人更容易帮助我。使用你想要的那个。

基本上,当我提出 request.post 时,我得到一个

10054, '现有连接被远程主机强行关闭' 错误。

我不知道发生了什么。找了3天,一无所获。我希望有人能帮助我。下面的代码使用我的虚拟 BA 帐户信息。用户名:python_noob 密码:p4ssword。随意使用和测试它。

这是fiddler2数据的一些图片

http://i.imgur.com/iOL91.jpg?1

http://i.imgur.com/meLHL.jpg?1

import requests

import urllib


def get_BA_login_using_requests ():
    url_loginSubmit1 = 'https://www.britishairways.com/travel/loginr/public/en_us'

    url_viewaccount1 = 'https://www.britishairways.com/travel/viewaccount/public/en_us?eId=106011'
    url_viewaccount2 = 'https://www.britishairways.com/travel/viewaccount/execclub/_gf/en_us?eId=106011'


    form_data = {
        'Directional_Login':'',
        'eId':'109001',
        'password':'p4ssword',
        'membershipNumber':'python_noob',
        }


    request_headers= {
        'Cache-Control':'max-age=0',
        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
        'Accept-Encoding':'gzip,deflate,sdch',
        'Accept-Language':'en-US,en;q=0.8',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.97 Safari/537.11',

        'Cookie': 'BIGipServerba.com-port80=997762723.20480.0000; v1st=EDAB42A278BE913B; BASessionA=kDtBQWGclJymXtlsTXyYtykDLLsy3KQKvd3wMrbygd7JZZPJfJz2!-1893405604!clx42al01-wl01.baplc.com!7001!-1!-407095676!clx43al01-wl01.baplc.com!7001!-1; BIGipServerba.com-port81=997762723.20736.0000; BA_COUNTRY_CHOICE_COOKIE=us; Allow_BA_Cookies=accepted; BA_COUNTRY_CHOICE_COOKIE=US; opvsreferrer=functional/home/home_us.jsp; realreferrer=; __utma=28787695.2144676753.1356203603.1356203603.1356203603.1; __utmb=28787695.1.10.1356203603; __utmc=28787695; __utmz=28787695.1356203603.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); fsr.s={"v":-2,"rid":"d464cf7-82608645-1f31-3926-49807","ru":"http://www.britishairways.com/travel/globalgateway.jsp/global/public/en_","r":"www.britishairways.com","st":"","to":3,"c":"http://www.britishairways.com/travel/home/public/en_us","pv":1,"lc":{"d0":{"v":1,"s":false}},"cd":0}',

        'Content-Length':'78',
        'Content-Type':'application/x-www-form-urlencoded',

        'Origin':'https://www.britishairways.com',
        'Referer':'https://www.britishairways.com/travel/loginr/public/en_us',

        'Connection':'keep-alive',
        'Host':'www.britishairways.com',
        }



    print ('Trying to login to British Airways using Requests Library (takes about 1 minute for error to occur)')


    try:
        r1 = requests.post(url_loginSubmit1, data = form_data, headers = request_headers)
    print ('it worked')
    except Exception as e:
        msg = "An exception of type {0} occured, these were the arguments:\n{1!r}"
        print (msg.format(type(e).__name__, e.args))


    return







def get_BA_login_using_urllib():
    """Tries to request the URL. Returns True if the request was successful; false otherwise.
    https://www.britishairways.com/travel/loginr/public/en_us

    response -- After the function has finished, will possibly contain the response to the request.

    """
    response = None
    print ('Trying to login to British Airways using urllib Library (takes about 1 minute for error to occur)')
    # Create request to URL.
    req = urllib.request.Request("https://www.britishairways.com/travel/loginr/public/en_us")

    # Set request headers.
    req.add_header("Connection", "keep-alive")
    req.add_header("Cache-Control", "max-age=0")
    req.add_header("Origin", "https://www.britishairways.com")
    req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.97 Safari/537.11")
    req.add_header("Content-Type", "application/x-www-form-urlencoded")
    req.add_header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
    req.add_header("Referer", "https://www.britishairways.com/travel/home/public/en_us")
    req.add_header("Accept-Encoding", "gzip,deflate,sdch")
    req.add_header("Accept-Language", "en-US,en;q=0.8")
    req.add_header("Accept-Charset", "ISO-8859-1,utf-8;q=0.7,*;q=0.3")
    req.add_header("Cookie", 'BIGipServerba.com-port80=997762723.20480.0000; v1st=EDAB42A278BE913B; BIGipServerba.com-port81=997762723.20736.0000; BA_COUNTRY_CHOICE_COOKIE=us; Allow_BA_Cookies=accepted; BA_COUNTRY_CHOICE_COOKIE=US; BAAUTHKEY=BA4760A2434L; BA_ENROLMENT_APPLICATION_COOKIE=1356219482491AT; BASessionA=wKG4QWGSTggNGnsLTnrgQnMxGMyzvspGLCYpjdSZgv2pSgYN1YRn!-1893405604!clx42al01-wl01.baplc.com!7001!-1!-407095676!clx43al01-wl01.baplc.com!7001!-1; HOME_AD_DISPLAY=1; previousCountryInfo=us; opvsreferrer=functional/home/home_us.jsp; realreferrer=; __utma=28787695.2144676753.1356203603.1356216924.1356219076.6; __utmb=28787695.15.10.1356219076; __utmc=28787695; __utmz=28787695.1356203603.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); fsr.s={"v":-2,"rid":"d464cf7-82608645-1f31-3926-49807","ru":"http://www.britishairways.com/travel/globalgateway.jsp/global/public/en_","r":"www.britishairways.com","st":"","to":5,"c":"https://www.britishairways.com/travel/home/public/en_us","pv":31,"lc":{"d0":{"v":31,"s":true}},"cd":0,"f":1356219889982,"sd":0}')

    # Set request body.
    body = b"Directional_Login=&eId=109001&password=p4ssword&membershipNumber=python_noob"

    # Get response to request.


    try:
        response = urllib.request.urlopen(req, body)
        print ('it worked')
    except Exception as e:
        msg = "An exception of type {0} occured, these were the arguments:\n{1!r}"
        print (msg.format(type(e).__name__, e.args))

    return



def main():
    get_BA_login_using_urllib()
    print()
    get_BA_login_using_requests()
    return


main()
4

2 回答 2

1

顺便说一句,我会说您设法创建了一个格式错误或非法的请求,而另一端的服务器(甚至代理)只是拒绝处理它。

  1. 一定要使用requests图书馆。太棒了。Urllib 已经过时了(而且,使用起来一点也不好玩。)

  2. 摆脱几乎所有的自定义标题。特别是Content-Length,Keep-Alive和。前三个您应该让 requests 库处理,因为它们是 HTTP 1.1 协议的一部分。关于: 这也将由库处理,具体取决于您使用会话的方式。(您可能想查阅那里的文档。)如果没有任何以前的 cookie,当您尝试访问该站点时,您可能会得到类似 401 的信息,或者您将(透明地)重定向到登录页面。进行登录将设置正确的 cookie,之后您应该能够重试原始请求。ConnectionCookieCookierequests

  3. 如果您对发布数据使用字典,则也不需要Content-Type标题。您可能想尝试在所述 dict 中使用 unicode-values。我发现这有时会有所作为。

换句话说:尽可能多地删除,然后从那里建立起来。做这样的事情通常不应该花费超过几行代码。现在,抓取网页,这是另一回事:尝试“beautifulsoup”。

PS:永远不要在公共论坛上发布 cookie 数据:它们可能包含不正当角色可能滥用的个人或其他敏感数据。

于 2012-12-23T12:21:33.713 回答
0

似乎 Python 3.3 的 Windows 版本中存在一个错误,这是导致我的问题的原因。我使用了here的答案

HTTPS 请求导致在 Windows 中使用 Python 3 重置连接

在我的脚本的 urllib 版本上取得进展。我想使用请求,所以我需要弄清楚如何使用该模块进行 SSL 降级工作。我将把它作为一个单独的线程。如果有人对此有答案,您也可以在此处发布。谢谢。

于 2012-12-23T21:17:40.863 回答