3

当我输入这个:

>>>tokenize('<[2{12.5 6.0}](3 -4 5)>')

我想找回这个:

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']

基本上,我将如何保留它,以便输入将所有内容转换为列表,同时保持数字的原始值。

4

9 回答 9

2

你可以尝试使用tokenizer,它给你的结果几乎和你预期的一样,除了负数 like -4,但它非常接近。

from StringIO import StringIO
import tokenize
str = '<[2{12.5 6.0}](3 -4 5)>'
tokens = tokenize.generate_tokens(StringIO(str).readline)
result = [x[1] for x in tokens]

结果如下:

['[', '2', '{', '12.5', '6.0', '}', ']', '(', '3', '-', '4', '5', ')', '>', '']
于 2013-08-01T04:37:40.047 回答
0
import re

s = '<[2{12.5 6.0}](3 -4 5)>'
p = re.compile(r"([-+]?(?:(?:\d*\.\d+)|(?:\d+\.?)))|(\S)")

conv = lambda n: float(n) if '.' in n else int(n)

[conv(m.group(1)) if m.lastindex==1 else m.group(2) for m in p.finditer(s)]

out:

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']
于 2013-08-01T04:55:58.947 回答
0

以下是使用正则表达式的方式

import re
def tokenize(your_string):
    pattern = re.compile(r'([-+]?[0-9]*\.?[0-9]+)') # float pattern
    digital = re.compile(r'([-+]?[0-9]*$)')
    lst = []
    for item in pattern.split(your_string):
        if not item.isspace(): # remove space
            if pattern.match(item):
                if digital.match(item):
                    lst.append(int(item))
                else:
                    lst.append(float(item)) # change string to float
            else:
                lst.extend(list(item)) # make unmatched string to character list
    return lst

print tokenize('<[2{12.5 6.0}](3 -4 5)>') 

结果是

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']
于 2013-08-01T05:19:16.060 回答
0

因此,要暴力破解它,您可以使用list(your_string),但请务必确定应该组合在一起的内容,并在进行时将项目附加到元素中。

其他解决方案可能有正则表达式、简单的语法库等。并且可以说更容易理解。

编辑:对于非整数#s,您还可以注意,当遇到这样的数字时,继续并改变新的、已解析的令牌列表的前一个索引,以及当您到达下一个数字、闭包、令牌等时,您将在列表中添加一个全新的元素。

假设您将所有内容作为字符串放入一个新列表中,这是一种让您的浮点数和整数返回的方法:

for i, e in enumerate(tokenized):
    if e.isdigit():
        tokenized[i] = int(e)
    elif '.' in e:
        tokenized[i] = float(e)
    elif '-' in e and not '.' in e:
        tokenized[i] = int(e)

最终结果是您想要的:

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']
于 2013-08-01T04:28:24.107 回答
0

re.split可能是你想要的。在这里看到一个类似的问题

将字符串拆分为列表后,您可以对其进行迭代并使用 and 将数字成员转换为实际int()数字float()

于 2013-08-01T04:29:58.547 回答
0

PLY解决方案

tokens = (
    'LT', 'GT', 'LPAREN', 'RPAREN', 'LBRACKET', 'RBRACKET', 'LBRACE', 'RBRACE',
    'FLOAT', 'INTEGER',
)

t_LT = r'<'
t_GT = r'>'
t_LPAREN = r'\('
t_RPAREN = r'\)'
t_LBRACKET = r'\['
t_RBRACKET = r'\]'
t_LBRACE = r'{'
t_RBRACE = r'}'
t_ignore = r' '

def t_FLOAT(t):
    r'-?\d*[.]\d+'
    t.value = float(t.value)
    return t

def t_INTEGER(t):
    r'-?\d+'
    t.value = int(t.value)
    return t

def t_error(t):
    raise ValueError('invalid input')

import ply.lex as lex
lex.lex()

lex.input('<[2{12.5 6.0}](3 -4 5)>')
tokens = list(iter(lex.token, None))
for t in tokens:
    print repr(t.type), repr(t.value)
print '>', [t.value for t in tokens]

输出:

'LT' '<'
'LBRACKET' '['
'INTEGER' 2
'LBRACE' '{'
'FLOAT' 12.5
'FLOAT' 6.0
'RBRACE' '}'
'RBRACKET' ']'
'LPAREN' '('
'INTEGER' 3
'INTEGER' -4
'INTEGER' 5
'RPAREN' ')'
'GT' '>'
> ['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']

您需要安装 PLY。要安装它,只需

# pip install ply
于 2013-08-01T04:49:00.893 回答
0

对于这类事情,我最喜欢的工具是pyparsing

from pyparsing import Word, ZeroOrMore, oneOf, nums

def tokenize(s):
    number = Word(nums + '.' + '-')
    number.setParseAction(lambda x : eval(x[0]))
    punctuation = '< > [ ] ( ) { }'
    lexeme = number | oneOf(punctuation) | ' '
    tokenizer = ZeroOrMore(lexeme)

    return tokenizer.parseString(s)


print tokenize('<[2{12.5 6.0}](3 -4 5)>')

输出:

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']

与 PLY 一样,您可以安装 with (如果没有pip install pyparsing,您可以安装 pip with )。easy_install pip同样在实际使用中,您可能不想在每次调用时创建 pyparsing 对象,因此它们可能是全局的,等等。

于 2013-08-01T06:35:07.117 回答
0
import re

def tokenize(txt):

    output = []

    tokenized = re.split('([\<\>\[\]\{\}\(\)\s])',txt)

    for t in tokenized:
        if len(t.strip()) > 0:
            if re.match("^\d+?\.\d+?$",t) is None:
                if re.match("^[\d\-]\d*?$",t) is None:
                    output.append(t)
                else:
                    output.append(int(t))
            else:
                output.append(float(t))

    print(output)


tokenize('<[2{12.5 6.0}](3 -4 5)>')

和输出:

['<', '[', 2, '{', 12.5, 6.0, '}', ']', '(', 3, -4, 5, ')', '>']
于 2013-08-01T05:14:13.533 回答
-2

所以这是一个在python中有一个非常好的解决方案

list(my_string)开始标记化但不保留您喜欢的属性:(。

因此,如果我们想使用一些比必要的稍重的机器,我们可以这样做

import re
a = '<[2{12.5 6.0}](3 -4 5)>'
tokenized = [x in re.split(r'[[!"#$%&\'()*+,\-/:;<=>?@[\\\]^_`{|}~ ]]*',a)) if x!='']
#or also
tokens = [x in re.split(r'[[!"#$%&\'()*+,\-/:;<=>?@[\\\]^_`{|}~ ]]*',a)) if x]

这可以在任何语言/白板表达式中使用,标点符号只是来自strings.punctuation,您可以自定义以分隔任何可以用正则表达式表达的东西——这几乎是一切。

如果你在一个巨大的字符串上运行它,使用 re.compile 来预编译表达式 - 你会得到更好的优化。同样在某些限制条件下,您可以使用自动机来完成其中的一些;)这会带来巨大的好处

于 2013-08-01T04:19:50.240 回答