python - 将名称与前面的地理信息相关联（使用 Python 3 从 PDF 中提取文本）

翻译自：https://stackoverflow.com/questions/66683796 2021-03-18T02:08:23.270

12 次

0

我想使用 Python 3 从 PDF 中提取文本，其中列出了以下格式的信息：

加州

洛杉矶

史密斯，乔 C.

比利，鲍勃 M。

斯图尔特，凯蒂 X。

我尝试同时使用 PyPDF2 和 pymupdf（1.18.9 版）从 PDF 中提取文本，并且成功识别出城市名称和人名。但是，我正在努力通过 PDF 的自然阅读顺序来关联两个字符串列表（用 reg.ex 标识）。

理想情况下，我希望有一个如下表：

CA 洛杉矶史密斯，乔 C.

CA 洛杉矶比利，鲍勃 M.

CA 洛杉矶斯图尔特，凯蒂 X。

并且能够将其导出为 csv。非常感谢！

0 回答 0