我正在尝试使用 freebase 数据转储,但似乎我在使用 python 读取文件时遇到了一些问题。看起来我的程序无法读取所有行。
def test2():
count=0
for line in open(FREEBASE_TOPIC):
count+=1
return count
def test3():
count=0
for line in open(FREEBASE_QUAD):
count+=1
return count
if __name__ == "__main__":
print "FREEBASE TOPIC - NR LINES:",test2()
print "FREEBASE QUAD - NR LINES:",test3()
结果如下:
FREEBASE TOPIC - ITR TIME: 1.21000003815
FREEBASE TOPIC - NR LINES: 1643010
FREEBASE QUAD - ITER TIME: 0.797000169754
FREEBASE QUAD - NR LINES: 3155131
这可以是全部。包含整个游离碱似乎只有几行。而且我看不出如何在 2 秒内迭代一个 33GB 文件和另一个 5GB 文件。
怎么了?我正在再次下载文件,以防下载过程中出现问题,但我的连接需要数十年的时间,所以我在此同时询问。文件大小是正确的,我已经打印了一些行,它们看起来是正确的。