我正在尝试将 PDF 文件拆分为单独的 HTML 文件。我的意思是对于每个 PDF 页面,我都需要一个 HTML 文件。我就是这样做的:
pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html
结果我得到了一个空LMS.html
文件和其他文件:lms%031.html
, lms%032.html
. 问题是那些html文件格式不正确,没有CSS样式?
我正在尝试将 PDF 文件拆分为单独的 HTML 文件。我的意思是对于每个 PDF 页面,我都需要一个 HTML 文件。我就是这样做的:
pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html
结果我得到了一个空LMS.html
文件和其他文件:lms%031.html
, lms%032.html
. 问题是那些html文件格式不正确,没有CSS样式?
有趣的是……我在尝试解决相同的问题时偶然发现了您的问题。我使用了和你一样的命令,只是没有设置--page-filename
参数。使用您的示例,我的pdf2htmlEX
调用类似于:
pdf2htmlEX --split-pages 1 LMS.pdf
然后我在 Chrome 中打开主 HTML 文件,发现一堆空白页。在搜索了一下之后,我在 Firefox 中打开了相同的文件。有效。很奇怪。控制台输出中没有报告错误。当然,我什至没有想过要查看 Chrome 控制台输出。当我这样做时,我发现:
Uncaught NetworkError: Failed to execute 'send' on 'XMLHttpRequest': Failed to load 'file:///...'.
感谢上帝StackOverflow。我不知道为什么它在 Firefox 中有效,但如果您收到 Chrome 报告的错误,则需要运行 Web 服务器。
对我来说,最简单、最快的方法是切换到我转换 PDF 的目录并运行:
python -m SimpleHTTPServer
默认情况下,您的页面将在http://localhost:8000
. 问题解决了。使用最适合您的服务器。