我正在使用 while True 循环抓取网站,然后将所有数据保存到带有 np.savez 的文件中。我想处理 npz 文件,但文件更新速度比我复制它的速度快。这是我的代码:
while True:
time.sleep(1.5)
for post in new:
all_posts.append(post)
np.savez('records.npz', posts)
new = other_site.get_next()
最初为了处理我正在抓取的数据,我只是复制文件,但现在文件太大而且每次都会损坏。我可以从头开始重新启动这个过程并减少保存的频率,这样我就有更多的时间来复制,但我想知道是否有办法恢复我写入的数据。我的另一个想法是截断文件的末尾,使其看起来仍然像一个 npz 文件,python 可以读取它,但我不知道这是否可能。