3

我正在尝试使用以下方法获取页面的源代码:

import urllib2
url="http://france.meteofrance.com/france/meteo?PREVISIONS_PORTLET.path=previsionsville/750560"
page =urllib2.urlopen(url)
data=page.read()
print data

并且还通过使用user_agent(headers) 我没有成功获取页面的源代码!

你们有什么想法可以做什么吗?提前致谢

4

3 回答 3

9

我试过了,请求有效,但您收到的内容表明您的浏览器必须接受 cookie(法语)。你可能可以urllib2requests.

要安装requests

pip install requests

然后在你的脚本中:

import requests

url = 'http://france.meteofrance.com/france/meteo?PREVISIONS_PORTLET.path=previsionsville/750560'

response = requests.get(url)
print(response.content)

我很确定该页面的源代码将是您所期望的。

于 2013-07-03T15:47:07.163 回答
2

requests正如Martin Maillard所展示的那样,图书馆为我工作。

同样在另一个线程中,我在这里注意到了leoluk 的这个注释:

编辑:现在是 2014 年,大多数重要的库都已被移植,如果可以的话,你绝对应该使用 Python 3。python-requests 是一个非常好的高级库,它比 urllib2 更易于使用。

所以我写了这个 get_page 过程:

import requests
def get_page (website_url):
    response = requests.get(website_url)
    return response.content

print get_page('http://example.com')

干杯!

于 2015-01-11T16:04:54.247 回答
0

我尝试了很多东西,“urllib”、“urllib2”和许多其他东西,但有一件事对我有用,可以满足我所需要的一切,并解决了我面临的任何问题。它是Mechanize。这个库使用真实的浏览器进行模拟,因此它处理了该领域的很多问题。

于 2013-07-03T17:00:20.157 回答