12

我正在尝试从http://dictionary.reference.com/browse/apple?s=t等字典网站下载一些内容

我遇到的问题是原始段落有所有那些波浪线和反向字母等等,所以当我阅读本地文件时,我最终会得到那些有趣的转义字符,如 \x85、\xa7、\x8d 等.

我的问题是,有什么办法可以将所有这些转义字符转换为它们各自的 UTF-8 字符,例如,如果有一个 'à' 我如何将它转换成一个标准的 'a' ?

Python调用代码:

import os
word = 'apple'
os.system(r'wget.lnk --directory-prefix=G:/projects/words/dictionary/urls/ --output-document=G:\projects\words\dictionary\urls/' + word + '-dict.html http://dictionary.reference.com/browse/' + word)

我在 Windows 7 系统上使用 wget-1.11.4-1(不要杀死我的 Linux 人,这是客户端要求),并且 wget exe 正在使用 Python 2.6 脚本文件启动。

4

5 回答 5

47

我如何将所有这些转义字符转换为它们各自的字符,例如如果有 unicode à,我如何将其转换为标准a

假设您已将 unicode 加载到一个名为my_unicode... 将 à 标准化为 a 的变量中,这很简单...

import unicodedata
output = unicodedata.normalize('NFD', my_unicode).encode('ascii', 'ignore')

明确的例子...

>>> myfoo = u'àà'
>>> myfoo
u'\xe0\xe0'
>>> unicodedata.normalize('NFD', myfoo).encode('ascii', 'ignore')
'aa'
>>>

它的工作原理是
unicodedata.normalize('NFD', "insert-unicode-text-here")执行 unicode 文本的规范分解 (NFD);然后我们使用str.encode('ascii', 'ignore')将 NFD 映射的字符转换为 ascii(忽略错误)。

于 2013-01-02T12:00:43.797 回答
3

@Mike Pennington 的解决方案非常感谢他。但是当我尝试该解决方案时,我注意到它未能在 NFD 中定义一些特殊字符(即土耳其字母表中的 ı 字符)。

我发现了另一种解决方案,您可以使用 unidecode 库进行此转换。

>>>import unidecode
>>>example = "ABCÇDEFGĞHIİJKLMNOÖPRSŞTUÜVYZabcçdefgğhıijklmnoöprsştuüvyz"


#convert it to utf-8
>>>utf8text = unicode(example, "utf-8")

>>> print utf8text
ABCÇDEFGĞHIİJKLMNOÖPRSŞTUÜVYZabcçdefgğhıijklmnoöprsştuüvyz

#convert utf-8 to ascii text
asciitext = unidecode.unidecode(utf8text)

>>>print asciitext

ABCCDEFGGHIIJKLMNOOPRSSTUUVYZabccdefgghiijklmnooprsstuuvyz
于 2021-01-14T22:52:05.873 回答
2

我需要这样的东西,但只删除重音字符,忽略特殊字符,我做了这个小功能:

# ~*~ coding: utf-8 ~*~
import re

def remove_accents(string):
    if type(string) is not unicode:
        string = unicode(string, encoding='utf-8')

    string = re.sub(u"[àáâãäå]", 'a', string)
    string = re.sub(u"[èéêë]", 'e', string)
    string = re.sub(u"[ìíîï]", 'i', string)
    string = re.sub(u"[òóôõö]", 'o', string)
    string = re.sub(u"[ùúûü]", 'u', string)
    string = re.sub(u"[ýÿ]", 'y', string)

    return string

我喜欢这个功能,因为您可以自定义它以防您需要忽略其他字符

于 2017-07-09T14:01:33.717 回答
0

给定的 URL 返回 UTF-8,因为 HTTP 响应清楚地表明:

wget -S http://dictionary.reference.com/browse/apple?s=t
--2013-01-02 08:43:40--  http://dictionary.reference.com/browse/apple?s=t
Resolving dictionary.reference.com (dictionary.reference.com)... 23.14.94.26, 23.14.94.11
Connecting to dictionary.reference.com (dictionary.reference.com)|23.14.94.26|:80... connected.
HTTP request sent, awaiting response... 
  HTTP/1.1 200 OK
  Server: Apache
  Cache-Control: private
  Content-Type: text/html;charset=UTF-8
  Date: Wed, 02 Jan 2013 07:43:40 GMT
  Transfer-Encoding:  chunked
  Connection: keep-alive
  Connection: Transfer-Encoding
  Set-Cookie: sid=UOPlLC7t-zl20-k7; Domain=reference.com; Expires=Wed, 02-Jan-2013 08:13:40 GMT; Path=/
  Set-Cookie: cu.wz=0; Domain=.reference.com; Expires=Thu, 02-Jan-2014 07:43:40 GMT; Path=/
  Set-Cookie: recsrch=apple; Domain=reference.com; Expires=Tue, 02-Apr-2013 07:43:40 GMT; Path=/
  Set-Cookie: dcc=*~*~*~*~*~*~*~*~; Domain=reference.com; Expires=Thu, 02-Jan-2014 07:43:40 GMT; Path=/
  Set-Cookie: iv_dic=1-0; Domain=reference.com; Expires=Thu, 03-Jan-2013 07:43:40 GMT; Path=/
  Set-Cookie: accepting=1; Domain=.reference.com; Expires=Thu, 02-Jan-2014 07:43:40 GMT; Path=/
  Set-Cookie: bid=UOPlLC7t-zlrHXne; Domain=reference.com; Expires=Fri, 02-Jan-2015 07:43:40 GMT; Path=/
Length: unspecified [text/html]

使用 vim 调查保存的文件还显示数据是正确的 utf-8 编码......使用 Python 获取 URL 也是如此。

于 2013-01-02T07:45:32.357 回答
0

这个问题对我来说是不同的,但这个堆栈页面可以解决它unicodedata.normalize('NFKC', 'V').encode('ascii', 'ignore') 输出 -b'V'

于 2021-06-15T07:21:27.240 回答