所以我试图从谷歌驱动器下载很多不同的文件,然后将它们组合成更小的文件。但是,出于某种原因,我的代码正在下载重复文件,或者可能只是错误地读取了 BytesIO 对象。我已经粘贴了下面的代码,这里只是对文件结构的快速解释。
所以我有大约 135 个文件夹,每个文件夹包含 52 个文件。我的目标是遍历每个文件夹,下载 52 个文件,然后将这 52 个文件转换为一个压缩程度更高的文件(去除不必要/重复的数据)。
代码
def main(temporary_workspace, workspace):
store = file.Storage('tokenRead.json')
big_list_of_file_ids = []
creds = store.get()
if not creds or creds.invalid:
flow = client.flow_from_clientsecrets('credentials.json', SCOPES)
creds = tools.run_flow(flow, store)
service = build('drive', 'v3', http=creds.authorize(Http()))
# Call the Drive v3 API
results = service.files().list(
q="'MAIN_FOLDER_WITH_SUBFOLDERS_ID' in parents",
pageSize=1000, fields="nextPageToken, files(id, name)").execute()
items = results.get('files', [])
list_of_folders_and_ids = []
if not items:
raise RuntimeError('No files found.')
else:
for item in items:
list_of_folders_and_ids.append((item['name'], item['id']))
list_of_folders_and_ids.sort(key=lambda x: x[0])
for folder_id in list_of_folders_and_ids:
start_date = folder_id[0][:-3]
id = folder_id[1]
print('Folder: ', start_date, ', ID: ', id)
query_string = "'{}' in parents".format(id)
results = service.files().list(
q=query_string, fields="nextPageToken, files(id, name)"
).execute()
items = results.get('files', [])
list_of_files_and_ids = []
if not items:
raise RuntimeError('No files found.')
else:
for item in items:
list_of_files_and_ids.append((item['name'], item['id']))
for file_id in list_of_files_and_ids:
# Downloading the files
if file_id[1] not in big_list_of_file_ids:
big_list_of_file_ids.append(file_id[1])
else:
print('Duplicate file ID!')
exit()
print('\tFile: ', file_id[0], ', ID: ', file_id[1])
request = service.files().get_media(fileId=file_id[1])
fh = io.BytesIO()
downloader = MediaIoBaseDownload(fh, request)
done = False
while done is False:
status, done = downloader.next_chunk()
print("Download: {}".format(int(status.progress() * 100)))
fh.seek(0)
temporary_location = os.path.join(tmp_workspace, file_id[0])
with open(temporary_location, 'wb') as out:
out.write(fh.read())
fh.close()
convert_all_netcdf(temporary_workspace, start_date, workspace, r'Qout_south_america_continental',
num_of_rivids=62317)
os.system('rm -rf %s/*' % tmp_workspace)
如您所见,我首先获取所有文件夹的 ID,然后遍历每个文件夹并获取该文件夹中的 52 个文件,然后将所有 52 个文件保存到一个临时文件夹,将它们转换为一个文件,我将其保存在另一个目录中,然后删除所有 52 个文件并移至 Google Drive 中的下一个文件夹。问题是,当我比较使用convert_all_netcdf方法压缩的文件时,它们都是相同的。我觉得好像我对BytesIO对象做错了什么,我需要做更多的事情来清除它吗?也可能是我每次在 google drive api 调用中不小心从同一个文件夹中读取。任何帮助表示赞赏。