0

我对 Python 比较陌生,并且在以下方面苦苦挣扎:

我有一个包含大约 52,000 个字典的列表,其中包含 PDF 上的元数据(单独存储)。现在,我想将这些 PDF 中的 5,000 个与它们相应的元数据字典进行匹配,但我不知道该怎么做。

元数据:

[{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code': '5837_c', ...}, ...]

PDF 文件名对应于“代码”值(即文件名是 5346、8372、3475_c、0294、5837_c 等,总是三个、四个或五个数字或三个、四个或五个数字,以 _c 为补充)。有没有一种方法可以将 PDF 与元数据字典列表中的正确字典匹配,使用 PDF 的文件名进行匹配?

其他解决方案也非常受欢迎!

编辑:我的目标是创建一个 Textacy 语料库,其中每个条目都是一个 Textacy Doc(即一个 PDF 的内容)及其相应的 Textacy 元数据(即 PDF 元数据)。

textacy_corpus = textacy.Corpus(u'en', texts=pdfs_list, metadatas=metadata_list)

来自 Textacy 的文档: “[元数据] 流必须与textsor完全对齐docs,否则元数据将被错误分配。更具体地说,中的第一项metadatas将分配给textsor中的第一项docs,依此类推。” 这就是我想将 PDF 与正确的元数据匹配的原因。

4

1 回答 1

0
dict((x['Code'],x) for x in <YOUR_LIST>)
于 2017-07-17T10:03:03.243 回答