24

我有 3 个将 json 数据返回到 3 个字典变量的 API。我正在从字典中获取一些值来处理它们。我阅读了我想要列出的特定值valuelist。其中一个步骤是从它们中删除标点符号。我通常string.translate(None, string.punctuation)用于此过程,但因为字典数据是 unicode 我收到错误:

    wordlist = [s.translate(None, string.punctuation)for s in valuelist]
TypeError: translate() takes exactly one argument (2 given)

有没有解决的办法?通过编码 unicode 或替换string.translate?

4

5 回答 5

32

translate 方法在 Unicode 对象上的工作方式与在字节字符串对象上的工作方式不同:

>>> 帮助(unicode.translate)

S.translate(table) -> unicode

返回字符串 S 的副本,其中所有字符都已映射
通过给定的转换表,它必须是
Unicode 序数到 Unicode 序数、Unicode 字符串或无。
未映射的字符保持不变。映射到无的字符
被删除。

所以你的例子会变成:

remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)
word_list = [s.translate(remove_punctuation_map) for s in value_list]

但是请注意,它string.punctuation仅包含 ASCII 标点符号。完整的 Unicode 有更多的标点符号,但这完全取决于您的用例。

于 2012-07-27T18:50:26.113 回答
6

我注意到 string.translate 已被弃用。由于您要删除标点符号,而不是实际翻译字符,因此您可以使用 re.sub 函数。

    >>> import re

    >>> s1="this.is a.string, with; (punctuation)."
    >>> s1
    'this.is a.string, with; (punctuation).'
    >>> re.sub("[\.\t\,\:;\(\)\.]", "", s1, 0, 0)
    'thisis astring with punctuation'
    >>>
于 2012-07-27T17:14:31.903 回答
3

在这个版本中你可以相对地给别人写信

def trans(to_translate):
    tabin = u'привет'
    tabout = u'тевирп'
    tabin = [ord(char) for char in tabin]
    translate_table = dict(zip(tabin, tabout))
    return to_translate.translate(translate_table)
于 2013-10-01T11:12:57.093 回答
1

Pythonre模块允许使用函数作为替换参数,它应该接受一个Match对象并返回一个合适的替换。我们可以使用这个函数来构建一个自定义的字符翻译函数:

import re

def mk_replacer(oldchars, newchars):
    """A function to build a replacement function"""
    mapping = dict(zip(oldchars, newchars))
    def replacer(match):
        """A replacement function to pass to re.sub()"""
        return mapping.get(match.group(0), "")
    return replacer

一个例子。匹配所有小写字母 ( [a-z]),将 'h' 和 'i' 分别翻译成 'H' 和 'I',删除其他匹配:

>>> re.sub("[a-z]", mk_replacer("hi", "HI"), "hail")
'HI'

如您所见,它可能与短(不完整)替换集一起使用,并且可能用于删除某些字符。

一个 Unicode 示例:

>>> re.sub("[\W]", mk_replacer(u'\u0435\u0438\u043f\u0440\u0442\u0432', u"EIPRTV"), u'\u043f\u0440\u0438\u0432\u0435\u0442')
u'PRIVET'
于 2015-01-27T17:35:57.960 回答
1

当我偶然发现同样的问题并且西蒙的回答是帮助我解决问题的答案时,我想展示一个更简单的例子来澄清一下:

from collections import defaultdict

然后对于翻译,假设您要删除 '@' 和 '\r' 字符:

remove_chars_map = defaultdict()
remove_chars_map['@'] = None
remove_chars_map['\r'] = None

new_string = old_string.translate(remove_chars_map)

还有一个例子:

old_string = "word1@\r word2@\r word3@\r"

new_string = "word1 word2 word3"

'@' 和 '\r' 已删除

于 2015-12-16T15:27:02.010 回答