python - 如何将小飞象序列文件输入转换为制表符分隔的文本

Question

我有输入，可以是单个基元，也可以是基元列表或元组。

我想将其展平为一个列表，如下所示：

def flatten(values):
    return list(values)

正常情况会变平（someiterablethatisn'tastring）

但是如果 values = '1234'，我会得到 ['1', '2', '3', '4']，但我想要 ['1234']

如果 values = 1，我会得到 TypeError: 'int' object is not iterable，但我想要 [1]

有没有一种优雅的方式来做到这一点？最后我真正想做的只是 '\t'.join(flatten(values))

编辑：让我更好地解释一下......

我希望使用小飞象将 hadoop 二进制序列文件转换为平面制表符分隔的文本文件。使用输出格式选项 -outputformat text

Dumbo 是一个围绕 hadoop 流的 python 包装器。简而言之，我需要编写映射器函数：

def mapper(key, values) #做一些事情 yield k, v

其中 k 是键中第一部分的字符串，value 是制表符分隔的字符串，包含键的其余部分和字符串形式的值。

例如：

input: (123, [1,2,3])
output: ('123', '1\t2\t\t3')

或更复杂：

input: ([123, 'abc'], [1,2,3])
output: ('123', 'abc\t1\t2\t\t3')

输入键或值可以是原语或原语列表/元组我想要一个可以处理任何东西并返回值列表的“扁平化”函数。

对于输出值，我会做这样的事情 v = '\t'.join(list(str(s) for s in flatten(seq)))

score 3 · Accepted Answer

听起来像你想要itertools.chain()的。但是，您将需要特殊情况的字符串，因为它们实际上只是字符的可迭代。

更新：

如果您将其用作递归生成器，这是一个更简单的问题。试试这个：

def flatten(*seq):
    for item in seq:
        if isinstance(item, basestring):
            yield item
        else:
            try:
                it = iter(item)
            except TypeError:
                yield item
                it = None
            if it is not None:
                for obj in flatten(it):
                    yield obj

这将返回一个迭代器而不是一个列表，但它是懒惰的评估，这可能是你想要的。如果您真的需要一个列表，请使用list(flatten(seq))。

更新 2：

正如其他人指出的那样，如果您真正想要的是将其传递给str.join()，那么您将需要将所有元素转换为字符串。为此，您可以在上面的整个示例中替换yield foo为yield str(foo)，或者只使用如下代码：

"\t".join(str(o) for o in flatten(seq))

score 1 · Accepted Answer

根据您重申的问题，此mapper功能可能会执行您想要的操作：

def mapper(key, values):
    r"""Specification: do some stuff yield k, v where k is a string from the
    first part in the key, and value is a tab separated string containing the
    rest of the key and the values as strings.

    >>> mapper(123, [1,2,3])
    ('123', '1\t2\t3')

    >>> mapper([123, 'abc'], [1,2,3])
    ('123', 'abc\t1\t2\t3')
    """
    if not isinstance(key, list):
        key = [key]
    k, v = key[0], key[1:]
    v.extend(values)
    return str(k), '\t'.join(map(str, v))

if __name__ == '__main__':
    import doctest
    doctest.testmod()

看起来您可能希望将其更改return为yield. 这还假设输入键将始终是单个项目或项目列表（不是列表列表），并且输入值将始终是项目列表（同样，不是列表列表）。

这符合你的要求吗？

score 0 · Accepted Answer

我必须说，规定的要求很奇怪，我认为flatten不是这种操作的正确名称。但是，如果您真的确定这是您想要的，那么这就是我可以从您的问题中提炼出来的：

>>> import itertools 
>>> def to_list_of_strings(input):
...      if isinstance(input, basestring):   # In Py3k: isinstance(input, str)
...          return [input]
...      try:
...          return itertools.chain(*map(to_list_of_strings, input))
...      except TypeError:
...          return [str(input)]
... 
>>> '\t'.join(to_list_of_strings(8))
'8'
>>> '\t'.join(to_list_of_strings((1, 2)))
'1\t2'
>>> '\t'.join(to_list_of_strings("test"))
'test'
>>> '\t'.join(to_list_of_strings(["test", "test2"]))
'test\ttest2'
>>> '\t'.join(to_list_of_strings(range(4)))
'0\t1\t2\t3'
>>> '\t'.join(to_list_of_strings([1, 2, (3, 4)]))
'1\t2\t3\t4'

python - 如何将小飞象序列文件输入转换为制表符分隔的文本

3 回答 3

Related

Reference