html - 使用 pdf2htmlEX 将 pdf 拆分为多个 html 文件

Question

我正在尝试将 PDF 文件拆分为单独的 HTML 文件。我的意思是对于每个 PDF 页面，我都需要一个 HTML 文件。我就是这样做的：

pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html

结果我得到了一个空LMS.html文件和其他文件：lms%031.html, lms%032.html. 问题是那些html文件格式不正确，没有CSS样式？

score 2 · Accepted Answer

有趣的是……我在尝试解决相同的问题时偶然发现了您的问题。我使用了和你一样的命令，只是没有设置--page-filename参数。使用您的示例，我的pdf2htmlEX调用类似于：

pdf2htmlEX --split-pages 1 LMS.pdf

然后我在 Chrome 中打开主 HTML 文件，发现一堆空白页。在搜索了一下之后，我在 Firefox 中打开了相同的文件。有效。很奇怪。控制台输出中没有报告错误。当然，我什至没有想过要查看 Chrome 控制台输出。当我这样做时，我发现：

Uncaught NetworkError: Failed to execute 'send' on 'XMLHttpRequest': Failed to load 'file:///...'.

感谢上帝StackOverflow。我不知道为什么它在 Firefox 中有效，但如果您收到 Chrome 报告的错误，则需要运行 Web 服务器。

对我来说，最简单、最快的方法是切换到我转换 PDF 的目录并运行：

python -m SimpleHTTPServer

默认情况下，您的页面将在http://localhost:8000. 问题解决了。使用最适合您的服务器。

1 回答 1