2

考虑以下 Python 片段:

af=open("a",'r')
bf=open("b", 'w')

for i, line in enumerate(af):
    if i < K:
        bf.write(line)

现在,假设我要处理 is 的情况KNone所以写入继续到文件的末尾。我目前在做

if K is None:
    for i, line in enumerate(af):
        bf.write(line)
else:
    for i, line in enumerate(af):            
        bf.write(line)
        if i==K:
            break

这显然不是处理此问题的最佳方法,因为我正在复制代码。有没有更综合的方法可以处理这个问题?很自然的事情是只有在is notif/break时才存在代码,但这涉及像 Lisp 宏那样动态编写语法,而 Python 不能真正做到这一点。为了清楚起见,我并不关心特定案例(我选择它的部分原因是为了它的简单性),而是学习我可能不熟悉的一般技术。KNone

更新:阅读人们发布的答案并进行更多实验后,这里有更多评论。

如上所述,我一直在寻找可以推广的通用技术,我认为@Paul 的答案,即使用takewhilefrom iterrools,最适合。作为奖励,它也比我上面列出的简单方法快得多;我不确定为什么。itertools虽然我看过几次,但我不是很熟悉。从我的角度来看,这是For The Win的函数式编程案例!(有趣的是,作者itertools曾经询问过有关 drop 的反馈。请参阅以http://mail.python.org/pipermail/python-list/2007-December/522529.htmltakewhile开头的线程。)我在上面简化了我的情况,实际情况有点混乱 - 我正在循环中写入两个不同的文件。所以代码看起来更像:

for i, line in enumerate(af):
    if i < K:
        bf.write(line)
        cf.write(line.split(',')[0].strip('"')+'\n')

鉴于我发布的示例,@Jeff 合理地建议在 when is 的情况下KNone我只需复制文件。因为在实践中我无论如何都在循环,这样做并不是一个明确的选择。但是,takewhile可以轻松地推广到这种情况。我还有另一个在这里没有提到的用例,但也可以在takewhile那里使用,这很好。第二个例子看起来像(逐字)

i=0
for line in takewhile(illuminacond, af):
    line_split=line.split(',')
    pid=line_split[1][0:3]
    out = line_split[1] + ',' + line_split[2] + ',' + line_split[3][1] + line_split[3][3] + ',' \
                        + line_split[15] + ',' + line_split[9] + ',' + line_split[10]
    if pid!='cnv' and pid!='hCV' and pid!='cnv':
        i = i+1
        of.write(out.strip('"')+'\n')
        tf.write(line)

在这里我可以使用条件

if K is None:
    illuminacond = lambda x: x.split(',')[0] != '[Controls]'
else:
    illuminacond = lambda x: x.split(',')[0] != '[Controls]' and i < K

根据@Paul 的原始示例。但是,尽管代码有效,但我对我i从外部范围获得的事实并不完全满意。有没有更好的方法来做到这一点?或者也许它应该是一个单独的问题。无论如何,感谢所有回答我问题的人。对@Jeff 的荣誉提及,他提出了一些很好的建议。

4

5 回答 5

5
for i, line in enumerate(af):  
    if K is None or i < K:
        bf.write(line)
    else:
        break
于 2011-05-02T22:56:39.633 回答
2

itertools.takewhile将应用您的条件,然后在条件第一次失败时跳出循环。

from itertools import takewhile

if K is None:
    condition = lambda x: True
else:
    condition = lambda x: x[0] < K

for i,line in takewhile(condition, enumerate(af)):
    bf.write(line)

如果 K 为 None,那么您不希望 takewhile 停止,因此条件函数应始终返回 True。但是如果给你一个 K 的数值,那么一旦元组的第 0 个元素传递给条件 >= K,那么 takewhile 就会停止。

于 2011-05-02T22:59:57.273 回答
1

如果你必须循环,这个怎么样?

from sys import maxint

limit = K or maxint
for i, line in enumerate(af):
    if i >= limit: break
    bf.write(line)

甚至这个?

from itertools import islice
from sys import maxint

bf.writelines(islice(af, K or maxint))

在这种情况下为什么要循环KNone

从shutil导入副本文件

名称 = 'a' bname = 'b' 如果 K 为无: 复制文件(aname,bname) 别的: af = open(aname, 'r') bf = open(bname, 'w') 对于 i,enumerate(af) 中的行: 如果我 < K: bf.write(行)

于 2011-05-02T23:01:18.630 回答
1

无论 K 是什么,它总是小于无穷大。

if K is None:
    K = float('inf') # infinity

for i, line in enumerate(af):            
    bf.write(line)
    if i==K:
        break

或者,设置K = -1同样有效,尽管它在语义上不太正确。理想情况下,您会在 af 中设置 K = max lines,但我认为数据并不便宜。

于 2011-05-03T00:01:38.590 回答
0

我认为您处于必须接受 DRY 原则和优化之间的权衡的情况。

我会从忠于 DRY 原则开始,并使用类似write_until...的函数删除重复的代码

def write_until(file_in,file_out,break_on)
    for i,line in enumerate(file_in)

        if break_on(i,line):
            break
        else:
            file_out.write(line)

af=open("a",'r')
bf=open("b", 'w')

if K is None:
    write_until(af,bf,lambda i,line: False)
else:
    write_until(af,bf,lambda i,line: i>K)

然后实际使用代码,看看你是否真的需要做优化。if False你真的会从删除支票中看到多少性能改进?如果你真的需要额外的速度提升(我怀疑),那么你只需要忍受一些代码重复。

于 2011-05-02T23:51:33.553 回答