导入ascii_lower
and而choice
不是减少执行时间。
似乎使用该语句打开文件是导致执行时间轻微增加的原因。string
random
with
不是写 7000 行(在我的代码中,我用这个数字而不是 7000000),最后一个代码的想法是将多个行分组到一个字符串中,在这些行\n
之前链接它们以在文件中打印这个字符串。
这样做print()
会减少调用次数。
为了获得与不是总行数除数的分组行数相同的总行数,它需要在 for 循环和 xrange 中进行一些棘手的计算(通过查看代码更好地理解) .
我还选择了缓冲区大小,以便它等于分组多行的字符串中的位数,同时是 1024 的倍数。
文件的每一行必须包含 10 个字符。分组的行与\n
--> 链接,它包含 11 个字符。最后一个分组的行后面没有一个\n
,但是什么时候print()
起作用,它会添加这样一个字符`\n
。
所以对于n 个分组行,分组字符串中有n * 11 个字符。作为一个字符==8 位,它使得n *11*8 = n *88。然后找到 n 很容易:它必须验证n*88 = 缓冲区大小。我们只需要设法同时获取 1024 的 buffer_size 倍数和 88 的倍数。
编辑
似乎尝试调整缓冲区的大小并没有带来好处,甚至是相反的!
from __future__ import print_function
from time import clock
from os.path import getsize
N=10
A,B,C,D,E,F = [],[],[],[],[],[]
repet = 20
total_lines = 7000
.
import random
import string
for i in xrange(repet):
te = clock()
rand_file1 = open("file_name1", 'w')
for i in range(total_lines):
print(''.join(random.choice(string.ascii_lowercase)
for x in range(N)),
file=rand_file1)
rand_file1.close()
A.append(clock()-te)
.
import random
import string
for i in xrange(repet):
te = clock()
with open("file_name2", 'w') as rand_file2:
for i in range(total_lines):
print(''.join(random.choice(string.ascii_lowercase)
for x in range(N)),
file=rand_file2)
B.append(clock()-te)
.
import random
from string import ascii_lowercase
for i in xrange(repet):
te = clock()
rand_file3 = open("file_name3", 'w')
for i in range(total_lines):
print(''.join(random.choice(ascii_lowercase)
for x in range(N)),
file=rand_file3)
rand_file3.close()
C.append(clock()-te)
.
from random import choice
from string import ascii_lowercase
for i in xrange(repet):
te = clock()
rand_file4 = open("file_name4", 'w')
for i in range(total_lines):
print(''.join(choice(ascii_lowercase)
for x in range(N)),
file=rand_file4)
rand_file4.close()
D.append(clock()-te)
.
from random import choice
from string import ascii_lowercase
buffer_size = 22528
grouped_lines = buffer_size/(11*8)
for i in xrange(repet):
te = clock()
rand_file5 = open("file_name5", 'w') # <== no buffer's size adjusted here
for i in range(0, total_lines, grouped_lines):
u = '\n'.join(''.join(choice(ascii_lowercase)
for x in range(N))
for y in xrange(min(grouped_lines,total_lines-i)))
print(u,file=rand_file5)
rand_file5.close()
E.append(clock()-te)
.
from random import choice
from string import ascii_lowercase
buffer_size = 22528
grouped_lines = buffer_size/(11*8)
for i in xrange(repet):
te = clock()
rand_file6 = open("file_name6", 'w', buffer_size)
for i in range(0, total_lines, grouped_lines):
u = '\n'.join(''.join(choice(ascii_lowercase)
for x in range(N))
for y in xrange(min(grouped_lines,total_lines-i)))
print(u,file=rand_file6)
rand_file6.close()
F.append(clock()-te)
.
t1,t2,t3,t4,t5,t6=map(min,(A,B,C,D,E,F))
print ('1 %s\n'
'2 %s %.3f %%\n'
'3 %s %.3f %%\n'
'4 %s %.3f %%\n'
'5 %s %.3f %%\n'
'6 %s %.3f %%\n'
% (t1,
t2,t2/t1*100,
t3,t3/t1*100,
t4,t4/t1*100,
t5,t5/t1*100,
t6,t6/t1*100))
for y in xrange(880,100000,88):
if y%1024==0:
print('%d %% 88 == %d %d %% 1024 == %d'
% (y,y%88,y,y%1024))
print("\nfile_name1",getsize('file_name1'))
for fn in ("file_name2","file_name3",
"file_name4","file_name5",
"file_name6"):
print(fn,getsize(fn))
结果
1 0.492455605391
2 0.503463149646 102.235 %
3 0.475755717556 96.609 %
4 0.449807168229 91.340 %
5 0.319271024669 64.832 %
6 0.334138277351 67.851 %
11264 % 88 == 0 11264 % 1024 == 0
22528 % 88 == 0 22528 % 1024 == 0
33792 % 88 == 0 33792 % 1024 == 0
45056 % 88 == 0 45056 % 1024 == 0
56320 % 88 == 0 56320 % 1024 == 0
67584 % 88 == 0 67584 % 1024 == 0
78848 % 88 == 0 78848 % 1024 == 0
90112 % 88 == 0 90112 % 1024 == 0
file_name1 84000
file_name2 84000
file_name3 84000
file_name4 84000
file_name5 84000
file_name6 84000