python - 使用非英文字符的 Google http://maps.google.com/maps/geo 查询

Question

我正在创建一个 Python（使用urllib2）解析器，其中包含非英语字符的地址。目标是找到每个地址的坐标。

当我在Firefox中打开此网址时：

http://maps.google.com/maps/geo?q=Czech%20Republic%2010000%20Male%C5%A1ice&output=csv

它被转换（地址框中的更改）为

http://maps.google.com/maps/geo?q=Czech Republic 10000 Malešice&output=csv

并返回

200,6,50.0865113,14.4918052

这是一个正确的结果。

urllib2但是，如果我在（或 Opera 浏览器）中打开相同的 url（编码，使用 %20 等），结果是

200,4,49.7715220,13.2955410

这是不正确的。如何打开第一个 urlurllib2以获得“ 200,6,50.0865113,14.4918052”结果？

编辑：

使用的代码

import urllib2

psc = '10000'
name = 'Malešice'
url = 'http://maps.google.com/maps/geo?q=%s&output=csv' % urllib2.quote('Czech Republic %s %s' % (psc, name))

response = urllib2.urlopen(url)
data = response.read()

print 'Parsed url %s, result %s\n' % (url, data)

输出

Parsed url http://maps.google.com/maps/geo?q=Czech%20Republic%2010000%20Male%C5%A1ice&output=csv, result 200,4,49.7715220,13.2955410

score 1 · Accepted Answer

我可以重现这种行为，起初我对它发生的原因感到目瞪口呆。使用wireshark对HTTP 请求进行更仔细的检查表明，Firefox 发送的请求（毫不奇怪）包含更多的HTTP-Headers。

最后，结果证明是Accept-Language标题有所不同。你只有得到正确的结果，如果

设置了Accept-Language标题
并且它首先列出了一种非英语语言（优先级似乎无关紧要）

因此，例如，此Accept-Language标头有效：

headers = {'Accept-Language': 'de-ch,en'}

总而言之，像这样修改您的代码对我有用：

# -*- coding: utf-8 -*-
import urllib2

psc = '10000'
name = 'Malešice'
url = 'http://maps.google.com/maps/geo?q=%s&output=csv' % urllib2.quote('Czech Republic %s %s' % (psc, name))
headers = {'Accept-Language': 'de-ch,en'}

req = urllib2.Request(url, None, headers)
response = urllib2.urlopen(req)
data = response.read()

print 'Parsed url %s, result %s\n' % (url, data)

注意：在我看来，这是 Google 地理编码 API 中的一个错误。标Accept-Language头指示用户代理更喜欢内容的语言，但它不应该对请求的解释方式有任何影响。

python - 使用非英文字符的 Google http://maps.google.com/maps/geo 查询

1 回答 1

Related

Reference