python - 使用 pdfminer pdf2txt.py 模块进行多列布局处理

翻译自：https://stackoverflow.com/questions/16775694 2013-05-27T14:52:04.873

1010 次

到目前为止，我正在成功使用pdfminer pdf2txt.py模块。

但是在格式化为两列的 pdf 文件中会出现问题。该模块将文本检索到单个列中，这会在行尾产生许多拆分词。例子：

和细胞成分的功能特性，无论是物理上还是化学上。

*请注意，单词由“-”字符分隔。

我想要的是自定义命令，以便在行尾的单词作为一个整体出现，因此不会丢失信息。可能是通过添加行参数或字符边距，特定于将“-”字符替换为反斜杠？

我还想知道是否有办法循环命令并使其解析一个充满pdf文件的目录，每次生成一个以原始文件命名的不同输出文本文件？

我不知道该怎么做。

0 回答 0