1

所以我试图从谷歌驱动器下载很多不同的文件,然后将它们组合成更小的文件。但是,出于某种原因,我的代码正在下载重复文件,或者可能只是错误地读取了 BytesIO 对象。我已经粘贴了下面的代码,这里只是对文件结构的快速解释。

所以我有大约 135 个文件夹,每个文件夹包含 52 个文件。我的目标是遍历每个文件夹,下载 52 个文件,然后将这 52 个文件转换为一个压缩程度更高的文件(去除不必要/重复的数据)。

代码

def main(temporary_workspace, workspace):
    store = file.Storage('tokenRead.json')
    big_list_of_file_ids = []

    creds = store.get()
    if not creds or creds.invalid:
        flow = client.flow_from_clientsecrets('credentials.json', SCOPES)
        creds = tools.run_flow(flow, store)
    service = build('drive', 'v3', http=creds.authorize(Http()))

    # Call the Drive v3 API
    results = service.files().list(
        q="'MAIN_FOLDER_WITH_SUBFOLDERS_ID' in parents",
        pageSize=1000, fields="nextPageToken, files(id, name)").execute()
    items = results.get('files', [])

    list_of_folders_and_ids = []
    if not items:
        raise RuntimeError('No files found.')
    else:
        for item in items:
            list_of_folders_and_ids.append((item['name'], item['id']))

    list_of_folders_and_ids.sort(key=lambda x: x[0])

    for folder_id in list_of_folders_and_ids:
        start_date = folder_id[0][:-3]
        id = folder_id[1]

        print('Folder: ', start_date, ', ID: ', id)

        query_string = "'{}' in parents".format(id)
        results = service.files().list(
            q=query_string, fields="nextPageToken, files(id, name)"
        ).execute()
        items = results.get('files', [])

        list_of_files_and_ids = []
        if not items:
            raise RuntimeError('No files found.')
        else:
            for item in items:
                list_of_files_and_ids.append((item['name'], item['id']))

        for file_id in list_of_files_and_ids:
            # Downloading the files
            if file_id[1] not in big_list_of_file_ids:
                big_list_of_file_ids.append(file_id[1])
            else:
                print('Duplicate file ID!')
                exit()

            print('\tFile: ', file_id[0], ', ID: ', file_id[1])

            request = service.files().get_media(fileId=file_id[1])
            fh = io.BytesIO()
            downloader = MediaIoBaseDownload(fh, request)
            done = False
            while done is False:
                status, done = downloader.next_chunk()
                print("Download: {}".format(int(status.progress() * 100)))

            fh.seek(0)

            temporary_location = os.path.join(tmp_workspace, file_id[0])
            with open(temporary_location, 'wb') as out:
                out.write(fh.read())

            fh.close()

        convert_all_netcdf(temporary_workspace, start_date, workspace, r'Qout_south_america_continental',
                           num_of_rivids=62317)

        os.system('rm -rf %s/*' % tmp_workspace)

如您所见,我首先获取所有文件夹的 ID,然后遍历每个文件夹并获取该文件夹中的 52 个文件,然后将所有 52 个文件保存到一个临时文件夹,将它们转换为一个文件,我将其保存在另一个目录中,然后删除所有 52 个文件并移至 Google Drive 中的下一个文件夹。问题是,当我比较使用convert_all_netcdf方法压缩的文件时,它们都是相同的。我觉得好像我对BytesIO对象做错了什么,我需要做更多的事情来清除它吗?也可能是我每次在 google drive api 调用中不小心从同一个文件夹中读取。任何帮助表示赞赏。

4

1 回答 1

0

我意识到这可能不是一个很好的问题,我之所以问它主要是因为我认为我对 BytesIO 对象做错了什么,但我找到了答案。我正在阅读使用名为 Xarray 的库下载的所有文件,但忘记关闭连接。这导致我只在后续循环中读取第一个连接,给我重复。感谢任何尝试过的人!

于 2019-01-06T01:41:43.467 回答