python-2.7 - 从html下载中文表格后的奇怪字符

Question

我正在使用 MAC OS X 10.12 系统。我从http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2011/51/06/81/510681114.html下载了一个表格。表格是用GB2312编码的，但是我用GBK来保存表格。代码的主要部分如下所示：

req = urllib2.Request(url, headers={ 'User-Agent': 'Mozilla/5.0' })
page = urllib2.urlopen(req ).read()
tables=BeautifulSoup(page,'html.parser',
parse_only=SoupStrainer(),from_encoding='gbk')
f = open(path, 'w')
for row in tables.findAll("tr"):
    cells = row.findAll("td")
    write_to_file = cells[0].find(text=True) + "," + cells[1].find(text=True) 
+ "\n"
    write_to_unicode = write_to_file.encode('utf-8')
    f.write(write_to_unicode)
f.close()

我对许多其他类似的表格重复了这种代码模式，但是，对于某些链接（例如我在此处发布的那个），下载的中文表格带有奇怪的字符。这是示例。

´úÂë,³ÇÏç·ÖÀà,Ãû³Æ
510681114001,121,½ÖµÀ¾ÓÃñÎ¯Ô±»á
510681114201,220,ðÀÃù´å´åÃñÎ¯Ô±»á
510681114202,220,°×º×´å´åÃñÎ¯Ô±»á
510681114203,122,Áâ½Ç´å´åÃñÎ¯Ô±»á
510681114204,122,»Æ¼Òµê´å´åÃñÎ¯Ô±»á
510681114205,122,»¨ÌÁ´å´åÃñÎ¯Ô±»á
510681114206,220,ÔÂÍå´å´åÃñÎ¯Ô±»á
510681114207,122,°×ÔÆ´å´åÃñÎ¯Ô±»á
510681114208,220,Á¹Ë®¾®´å´åÃñÎ¯Ô±»á
510681114209,122,Çàþh´å´åÃñÎ¯Ô±»á

怎么把这个表转成真正的中文，或者怎么下载中文表？

问题是，如果我选择使用GB2312，也许这张表可以正确显示中文，但对于其他表，它仍然会显示这些烦人的奇怪字符。

score 0 · Accepted Answer

例如，我刚刚从这里 http://zzi.io/?p=275得到了灵感

a=u"´úÂë"
print a.encode('iso-8859-1').decode('gbk')

结果是

代码

所以这个问题部分解决了。

python-2.7 - 从html下载中文表格后的奇怪字符

1 回答 1

Related

Reference