3

所以我正在处理一个未知长度的列表。我需要把这份清单分成四个部分。

第一部分 = 列表的前 20%

第二部分 = 列表的 20% 到 40%

第三部分 = 列表的 40% 到 80%

第四部分 = 从列表的 80% 到 100%。

现在的问题是,如果列表中的元素少于 10 个,我的一些列表将是空的。我的问题是如何避免这个问题。

这是我现在拥有的脚本:

x = ["one", "two", "three", "four", "five", "six", "seven", "eight", "nine", "ten"]

twentyPercentOne = len(x) * 0.2

twentyPercentTwo = len(x) * 0.4

fourtyPercentThree = len(x) * 0.8

i = 0
j = 2

m = []
while j < (twentyPercentOne + 1):
    m.append(x[i:j])
    i = (i + 2)
    j = (j + 2)

h = []  
while j < (twentyPercentTwo + 1):
    h.append(x[i:j])
    i = (i + 2)
    j = (j + 2)

l = []        
while j < (fourtyPercentThree + 1):
    l.append(x[i:j])
    i = (i + 2)
    j = (j + 2)

t = x[i:len(x)]

输出:

[['one', 'two']]
[['three', 'four']]
[['five', 'six'], ['seven', 'eight']]
['nine', 'ten']

如果列表长度小于 10,则输出:x = [“一”、“二”、“三”、“四”、“五”、“六”、“七”]

[['one', 'two']]
[]
[['three', 'four'], ['five', 'six']]
['seven']

有人知道怎么做这个吗?我知道它更多的是数学问题而不是 python 问题,但我不知道该怎么做,并且已经研究了好几天。我将不胜感激任何帮助。

谢谢

4

2 回答 2

7

这应该是正确的方法,对于任何大小的任意数量的拆分(不仅仅是四个)(只要它们加起来为 1):

def percentage_split(seq, percentages):
   assert sum(percentages) == 1.0
   prv = 0
   size = len(seq)
   cum_percentage = 0
   for p in percentages:
       cum_percentage += p
       nxt = int(cum_percentage * size)
       yield seq[prv:nxt]
       prv = nxt

(这是一个生成器函数,您可以像这样获取四分位数列表:

list(percentage_split(x, [0.25]*4))

)

如果您安装了 numpy,它可能会更简洁:

from numpy import cumsum

def percentage_split(seq, percentages):
    cdf = cumsum(percentages)
    assert cdf[-1] == 1.0
    stops = map(int, cdf * len(seq))
    return [seq[a:b] for a, b in zip([0]+stops, stops)]

如果你只想要四个相等的四分位数......

numpy.split(seq, 4)
于 2013-01-11T15:17:59.717 回答
0

您应该清楚,不可能以这种方式以匹配长度划分列表。但这里有另一种方式:

def do_split(x, percent):
    L = len(x)
    idx1 = [0] + list(int(L * p) for p in percent[:-1])
    idx2 = idx1[1:] + [L]
    return list(x[i1:i2] for i1,i2 in zip(idx1, idx2))

splits = [0.2, 0.4, 0.8, 1.0]
print do_split(["one", "two", "three", "four", "five", "six", "seven", "eight", "nine", "ten"], splits)
# ---> [['one', 'two'], ['three', 'four'], ['five', 'six', 'seven', 'eight'], ['nine', 'ten']]
print do_split( ["one", "two", "three", "four", "five", "six", "seven"], splits)
# --> [['one'], ['two'], ['three', 'four', 'five'], ['six', 'seven']]
于 2013-01-11T15:24:04.210 回答