1

我正在尝试将 PDF 文件拆分为单独的 HTML 文件。我的意思是对于每个 PDF 页面,我都需要一个 HTML 文件。我就是这样做的:

pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html

结果我得到了一个空LMS.html文件和其他文件:lms%031.html, lms%032.html. 问题是那些html文件格式不正确,没有CSS样式?

4

1 回答 1

2

有趣的是……我在尝试解决相同的问题时偶然发现了您的问题。我使用了和你一样的命令,只是没有设置--page-filename参数。使用您的示例,我的pdf2htmlEX调用类似于:

pdf2htmlEX --split-pages 1 LMS.pdf 

然后我在 Chrome 中打开主 HTML 文件,发现一堆空白页。在搜索了一下之后,我在 Firefox 中打开了相同的文件。有效。很奇怪。控制台输出中没有报告错误。当然,我什至没有想过要查看 Chrome 控制台输出。当我这样做时,我发现:

Uncaught NetworkError: Failed to execute 'send' on 'XMLHttpRequest': Failed to load 'file:///...'.

感谢上帝StackOverflow。我不知道为什么它在 Firefox 中有效,但如果您收到 Chrome 报告的错误,则需要运行 Web 服务器。

对我来说,最简单、最快的方法是切换到我转换 PDF 的目录并运行:

python -m SimpleHTTPServer

默认情况下,您的页面将在http://localhost:8000. 问题解决了。使用最适合您的服务器。

于 2015-01-08T19:23:41.630 回答