问题标签 [pdf-to-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
480 浏览

python - 如何使用 python pdfminer 将 pdf 转换为 HTML?

有没有可以工作的代码片段?我已经尝试过将pdf转换为html

当我运行上面的代码时,它给了我以下错误

0 投票
0 回答
52 浏览

php - 我正在使用 PHP Chrome HTML 2 PDF,但无法在 PDF 中使用页眉和页脚

请找到以下代码:

上面的代码工作正常,除了页眉和页脚部分。页眉和页脚未显示在 PDF 中。请提供一些建议来解决这个问题。

按照以下链接供参考:

https://github.com/spiritix/php-chrome-html2pdf

0 投票
0 回答
46 浏览

pdf - 使用 poppler 生成的 XML 中的坐标来构建电子邮件模板

从此PDF生成 72 dpi图像和缩放为 1 的XML

尽管 DPI 为 72,但为了能够将 XML 中的坐标转换为像素,必须使用此反复调整 DPI 。90.5 似乎运作良好。但是,这看起来不像是正确的方法。

生成 XML 的命令: pdftohtml -xml -zoom 1 -fontfullname -s -c input.pdf output

生成图像的命令: pdftoppm -jpeg -r 72 input.pdf output

注意:生成图像时使用了 72 dpi,因为在 72 dpi 中输出的图像与 PDF 和 XML 输出的尺寸相似。

这种转换是必不可少的,因为这将允许构建 HTML。我知道 poppler 本身可以生成 HTML,但是,由于生成的 HTML 需要与电子邮件兼容,因此 XML 被用于从头开始构建 HTML。

XML 到 PDF 中坐标的转换可以通过哪些方式更可靠地完成?

0 投票
0 回答
18 浏览

pdf-to-html - PDFtoHTML 连字和实体

我已popper pdftohtml成功使用并生成 HTML 文件。但不知道如何解决以下几点:

在使用的命令提示符中:

pdftohtml -c -s -enc Latin2 Sample.pdf

  1. 实体需要named entity formatlikeŪ而不是 UTF character Ü
  2. 连字字符问题selfl essness应该是selflessness.
  3. 删除标点符号处的额外空格。

Pdftohtml 版本21.04.0Windows-10. 如何解决以上几点?