0

我想做以下事情。

1) 转到https://www.wunderground.com/history

2) 提交具有以下值的表单:

位置 = '加利福尼亚州洛杉矶'

月份 = '十一月'

天 = '02'

年份 = '2017'

3)检索响应并保存到文件

这是我目前拥有的,但不起作用:

import requests
url = 'https://www.wunderground.com/history'
payload = {'code': 'Los Angeles, CA', 'month': 'November', 'day': '2', 'year':'2017'}
r = requests.post(url, params=payload)

with open('test.html', 'w') as f:
    f.write(r.text)

我没有得到预期的响应,也不确定我是否正确使用了请求。

我知道 wunderground 有一个 API,但目前不想使用它。

test.html 的内容基本上是没有历史数据的原始页面。

我期待这个页面:

https://www.wunderground.com/history/airport/KCQT/2017/11/2/DailyHistory.html?req_city=Los+Angeles&req_state=CA&req_statename=California&reqdb.zip=90012&reqdb.magic=1&reqdb.wmo=99999

4

2 回答 2

1

尝试requests.get而不是requests.post看起来应该与 GET 一起提供参数。

import requests

url = 'https://www.wunderground.com/history'
payload = {'code': 'Los Angeles, CA', 'month': 'November', 'day': '2', 'year':'2017'}

r_get = requests.get(url, params=payload)
r_post = requests.post(url, params=payload)

assert r_get != r_post

有关 GET 与 POST 的更多信息:https ://www.w3schools.com/tags/ref_httpmethods.asp

于 2018-04-09T08:55:41.167 回答
1

您不能盲目地将有效负载发送到某些网站并期望获得好的结果。首先,查看form元素的源代码。我删除了一些不重要的部分:

<form action="/cgi-bin/findweather/getForecast" method="get" id="trip">
    <input type="hidden" value="query" name="airportorwmo" />
    <input type="hidden" value="DailyHistory" name="historytype" />
    <input type="hidden" value="/history/index.html" name="backurl" />
    <input type="text" value="" name="code" id="histSearch" />

    <select class="month" name="month">
        <option  value="1">January</option>
        <option  value="2">February</option>
        ...
        <option  value="12">December</option>
    </select>

    <select class="day" name="day">
        <option>1</option>
        <option>2</option>
        ...
        <option>31</option>
    </select>

    <select class="year" name="year">
        <option>2018</option>
        <option>2017</option>
        ...
        <option>1945</option>
    </select>

    <input type="submit" value="Submit" class="button radius" />
</form>

首先,从元素的method属性form可以看出,您必须使用 GET 方法而不是 POST 来发送有效负载。其次,从action属性中您还可以看到您应该将该有效负载发送到此特定 URL:

https://www.wunderground.com/cgi-bin/findweather/getForecast

有效负载本身不仅仅是您要发送的值。在许多情况下,必须发送其他值才能使 Web 服务器正确响应。通常最好发送所有内容(基本上是每个name属性)或检查网站实际发送的内容。

这段代码对我有用:

import requests

URL = 'https://www.wunderground.com/cgi-bin/findweather/getForecast'
CODE = 'Los Angeles, CA'
DAY = 2
MONTH = 11
YEAR = 2017

params = {
    'airportorwmo': 'query',
    'historytype':  'DailyHistory',
    'backurl':      '/history/index.html',
    'code':         CODE,
    'day':          DAY,
    'month':        MONTH,
    'year':         YEAR,
    }

r = requests.get(URL, params=params)
print(r.text)
于 2018-04-09T09:06:32.777 回答