我对 Python 比较陌生,并且在以下方面苦苦挣扎:
我有一个包含大约 52,000 个字典的列表,其中包含 PDF 上的元数据(单独存储)。现在,我想将这些 PDF 中的 5,000 个与它们相应的元数据字典进行匹配,但我不知道该怎么做。
元数据:
[{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code': '5837_c', ...}, ...]
PDF 文件名对应于“代码”值(即文件名是 5346、8372、3475_c、0294、5837_c 等,总是三个、四个或五个数字或三个、四个或五个数字,以 _c 为补充)。有没有一种方法可以将 PDF 与元数据字典列表中的正确字典匹配,使用 PDF 的文件名进行匹配?
其他解决方案也非常受欢迎!
编辑:我的目标是创建一个 Textacy 语料库,其中每个条目都是一个 Textacy Doc(即一个 PDF 的内容)及其相应的 Textacy 元数据(即 PDF 元数据)。
textacy_corpus = textacy.Corpus(u'en', texts=pdfs_list, metadatas=metadata_list)
来自 Textacy 的文档:
“[元数据] 流必须与texts
or完全对齐docs
,否则元数据将被错误分配。更具体地说,中的第一项metadatas
将分配给texts
or中的第一项docs
,依此类推。”
这就是我想将 PDF 与正确的元数据匹配的原因。