到目前为止,我正在成功使用pdfminer pdf2txt.py模块。
但是在格式化为两列的 pdf 文件中会出现问题。该模块将文本检索到单个列中,这会在行尾产生许多拆分词。例子:
和细胞成分的功能特性,无论是物理上还是化学上。
*请注意,单词由“-”字符分隔。
我想要的是自定义命令,以便在行尾的单词作为一个整体出现,因此不会丢失信息。可能是通过添加行参数或字符边距,特定于将“-”字符替换为反斜杠?
我还想知道是否有办法循环命令并使其解析一个充满pdf文件的目录,每次生成一个以原始文件命名的不同输出文本文件?
我不知道该怎么做。