我用 Python 编写了一个脚本,它将按章节/书签拆分 .pdf。这基本上是我的程序的症结所在:
for each chapter:
system('pdftk A=file.pdf cat A{start}-{end} output file2.pdf')
该工具包工作得很好,但一遍又一遍地调用它显然不是一项省时的任务。解析一个 200mb 的 .pdf 文件需要 15-20 秒的时间,而在大约 30 个单独的章节中这样做需要很长时间。打开文件所花费的时间比实际写入任何数据所花费的时间更多。
由于似乎没有在工具包中对多个命令进行字符串处理的固有方法,因此我可以在 Python 或 CMD 中提取任何内存技巧来解决这个问题(即保持 .pdf 打开)?如果你能推荐一个模块,我也会看看另一个模块(虽然 pyPdf有它自己的一系列问题)。