我正在尝试从http://dictionary.reference.com/browse/apple?s=t等字典网站下载一些内容
我遇到的问题是原始段落有所有那些波浪线和反向字母等等,所以当我阅读本地文件时,我最终会得到那些有趣的转义字符,如 \x85、\xa7、\x8d 等.
我的问题是,有什么办法可以将所有这些转义字符转换为它们各自的 UTF-8 字符,例如,如果有一个 'à' 我如何将它转换成一个标准的 'a' ?
Python调用代码:
import os
word = 'apple'
os.system(r'wget.lnk --directory-prefix=G:/projects/words/dictionary/urls/ --output-document=G:\projects\words\dictionary\urls/' + word + '-dict.html http://dictionary.reference.com/browse/' + word)
我在 Windows 7 系统上使用 wget-1.11.4-1(不要杀死我的 Linux 人,这是客户端要求),并且 wget exe 正在使用 Python 2.6 脚本文件启动。