我对 python 和 pdfminer 都是新手,虽然一般来说不是编程。我在 Windows 7 和 cygwin 上使用 Python 2.7。
我正在用 beautifulsoup 编写一个脚本来从 pdf 中提取特定信息。为此,我使用 pdf2txt 创建了此 pdf 的 .txt 和 .html 文件以用于测试。只是通常的命令:
python pdf2txt.py -o output.txt input.pdf
python pdf2txt.py -o output.html input.pdf
它们都有相同的问题:某些文本行出现乱序。在这个 pdf 上运行 pdf2txt,你会明白我的意思:(编辑:我找到了原始网站。)这是美属萨摩亚在这个页面上的一个:https ://www.iamovers.org/ResourcesPublications/ShipperGuides.aspx?navItemNumber =580
例如,这是 pdf 第一页的一部分的正确布局:
需要文件
护照复印件(某些港口要求 3299 所列所有家庭成员的护照)
CF-3299 表格
补充声明(大多数港口要求)
英文详细清单
签证复印件(如果是非美国公民/永久居民)/永久居留复印件居民卡
I-94 印章 /
提单 (OBL) / 空运提单 (AWB)
表格 DS-1504 (外交官)
A-1 签证 (外交官)
进口商安全申报 (ISF)
这就是使用 pdf2txt.py 进行 txt 和 html 转换的结果:
需要文件
护照复印件(某些港口要求 3299 中列出的所有家庭成员的护照)
CF-3299 表格
补充声明(大多数港口要求)
英文详细清单
签证复印件(如果是非美国公民/永久居民)/永久居留复印件居民卡提单 (OBL) / 空运提单 (AWB)
表格 DS-1504 (Diplomats)
A-1 签证 (Diplomats)副本进口商安全申报 (ISF)
I-94 邮票/卡
出于某种原因,以字母“I”开头的行总是从它们的位置中取出,并放在下一个空白行或前一个空白行上。还有一些其他角色也不断发生。
我在这里发布了这个问题:https ://github.com/euske/pdfminer/issues/121
这一定是pdfminer的问题。我还不太了解python,无法对包进行更改。有谁知道如何解决这一问题?