python - pdf/djvu/or-other-image-format 文本重排的开源项目——将书籍格式化为 kindle 或其他电子阅读器

Question

自从我购买了自己的 kindle4 以来，我一直在寻找可以帮助我阅读有关它的科学论文或漫画的软件。到目前为止，我的搜索已经产生了k2pdfopt的论文
和Briss的漫画——实际上只有漫画。
第一个链接，即 k2pdfopt 上的页面提到了一些非常好的软件，可以将 pdf 的某些部分裁剪为另一个。请注意，k2pdfopt 与这些 pdf 裁剪软件（包括 Briss）在不同的线路上运行。它将单词、方程式等识别为以图像形式重排以适合电子阅读器的文本块。Reflowable Document 的 Wikipedia 页面 (http://en.wikipedia.org/wiki/Reflowable_document) 提到了由 Xerox PARC 设计的实验软件，其工作方式与 k2pdfopt 类似。
因此，我的问题是，是否存在以类似方式解决问题的现有开源项目（或更多）——即将单词级别的文本识别为图像，然后使用算法对这些图像进行排版。

k2pdfopt 生成一个 exe 文件 - 还没有用 wine 尝试过。
尽管该软件是高度可定制的 - 即可以向它建议字间距和行间距，但没有用户界面，并且所有页面都必须以相同的方式处理。因此，无法识别目录，例如，或适当地添加脚注 - 可能需要一些人为干预。
因此需要一个新项目（如果这样的项目不存在）。
我想使用 python 来完成这项工作，但通常的 pdf 相关模块 ReportLab 和 pyPdf 无法导入现有的 pdf 页面。有人可以帮忙搜索这样一个 python 模块吗？

python - pdf/djvu/or-other-image-format 文本重排的开源项目——将书籍格式化为 kindle 或其他电子阅读器

0 回答 0

Related

Reference