问题标签 [pdf-to-html]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

74 问题

0 投票

1 回答

520 浏览

java - 提供者 com.levigo.jbig2.util.log.JDKLoggerBridge 不是子类型

使用以下代码将 PDF 文件写入 HTML 文件格式时...

build.gradle文件具有以下依赖项列表...

哦，快！从 JDK 收到以下消息...

在搜索了有关此错误的更多信息后，没有任何线索。如果有人对此有任何想法，请对此提出一些建议。

谢谢

java pdfbox pdf-to-html jbig2

2018-10-26T12:57:13.683

0 投票

0 回答

329 浏览

java - 寻找解决方法以使用 pdf2dom 成功转换 PDType0Font 和 PDType1Fonts

我们正在使用pdf2dom库将大量报纸 pdf 转换为 html。每天有问题的 pdf 数量超过 5k pdf 页。

尽管我们在大多数情况下都成功了，但在大多数情况下我们都无法完全转换 pdf。并得到以下类型的错误 -

字体：Helvetica 已跳过，因为不支持类型“PDType1Font”。

和

找不到字形名称的字符代码。名称：'fraction' GlyphID:'217' 找不到字形名称的字符代码。名称：'fi' GlyphID：'218' 找不到字形名称的字符代码。名称：'fl' GlyphID：'219' 找不到字形名称的字符代码。名称：'breve' GlyphID：'220' 找不到字形名称的字符代码。名称：'dotaccent' GlyphID：'221' 找不到字形名称的字符代码。名称：'ring' GlyphID：'222'

和

问题转换 Bare CFF 字体或 Pdf2Dom 不支持字体类型，字体：UniversLTStd-Bold 异常：索引：0，大小：0 类 java.lang.IndexOutOfBoundsException

和

字体：RXKFZF+*Calibri-Bold 已跳过，因为不支持“PDType0Font”类型。

由于我们的目标是将 pdf 转换为具有完整文本和适当格式信息（即大小/粗体/斜体等）的 html，并且我们可以忽略字体，因此我们正在寻找一种有效的方法来转换/替换不支持的 Type 1 和 Type 0具有等效字体的字体。

任何解决方法和指针都会非常有帮助。

java fonts pdfbox pdf-to-html

2018-12-23T05:28:21.883

0 投票

1 回答

702 浏览

javascript - 有没有办法使用javascript和angular或任何其他javascript从可编辑的pdf中获取数据

我正在尝试在 UI 中显示一个 PDF，其中有一些字段要由用户填写，我正在尝试访问填充的数据，但我无法访问任何人都可以建议一种方法来访问 PDF 中的表单数据或任何其他简单的方法实现这个功能

我已经尝试使用嵌入来显示 PDF，但我无法访问用户填写的数据

最终结果就像用户应该能够编辑任意次数的 PDF 中的字段只有一次他可以将数据提交到数据库

javascript java jquery angular pdf-to-html

2019-05-02T06:41:23.677

0 投票

1 回答

2478 浏览

javascript - 如何在使用 JSPDF 新 html API 从 html 生成 pdf 时给出宽度、高度、x 和 y 坐标

我一直在使用 JSPDF 来生成基于一些 html 的 pdf 文档。早些时候使用来自HTML Api的jspdf，我们可以像这样给出边距

但是，在新的 .html API 中，我如何提供边距、宽度和高度。新的 API 就像

javascript pdf-generation jspdf jspdf-autotable pdf-to-html

2019-05-16T06:29:36.037

0 投票

0 回答

256 浏览

php - 从 GCP Vision PDF 结果返回格式化文本

我终于得到了将 PDF 文档提交到 Google Storage 的脚本，然后使用 Google Vision for PDF 提取文本，如文档中所述。

数据以一个巨大的 JSON 文件返回。有一个节点包含测试，但不再格式化。只有换行符用\n. 我不太关心换行符，就像段落一样。

我怎样才能返回它的格式？是否有任何库可以与 GCP 一起使用以增强 JSON 输出？

php pdf google-vision pdftotext pdf-to-html

2019-05-23T00:45:11.177

0 投票

0 回答

70 浏览

abcpdf - 是否可以使用 AbsPDF 将 PDF 转换为 html 并将所有 css 和 javascript 嵌入到 html 中

基本上是标题。我正在尝试使用 AbcPDF 将 pdf 转换为 html

这将创建 Some.html 和一个名为 Some 的文件夹，其中将包含 Some.js、Some.css、excanvas-compiled.js 和 Wingdings_Type0_0.otf

我想要的是将所有这些组合到 html 中。这可能吗？

abcpdf pdf-to-html

2019-06-17T17:09:49.677

0 投票

1 回答

4582 浏览

python - 如何修复“无法从'pdfminer.pdfinterp'导入名称'process_pdf'”错误

我正在尝试将 pdf 文件中的文本转换为文本或 HTML 格式，但此错误经常发生 'cannot import name 'process_pdf' from 'pdfminer.pdfinterp' ' 如何删除这个？

我已经在 Visual Basic Studio 中尝试过这段代码，但它仍然无法正常工作，但在这种情况下，由于空格，我得到了缩进错误，所以我在 jupyter notebook 中尝试了这个并得到了这个错误。

python python-3.x jupyter-notebook pdfminer pdf-to-html

2019-07-17T15:48:28.863

0 投票

0 回答

47 浏览

pdfbox - 用于检查 pdf 页面的命令行是否包含图像

我当前使用pdftohtmlfrompoppler从 pdf 文件生成 html 输出，然后检查 html 文件中哪个页面包含图像。

是否有可以直接打印包含图像的页数的命令行程序？

pdfbox pypdf2 pdfminer poppler pdf-to-html

2019-08-21T21:38:51.990

0 投票

1 回答

2130 浏览

c# - PDF 网站上 DIV 中的首页图像预览

在我的系统中，网站中列出了多个 PDF。我需要显示所有 PDF 第一页的预览图像。我想显示两个预览 -

一个小预览
鼠标悬停的一大预览

我现在在做什么？

我们正在帮助一些第三方预览生成器。用于创建 JPEG 图像并使用网站中的这些图像进行预览。

我有什么不同的尝试？

我使用EvoPDFtoHTML工具直接使用 HTML 而不是图像，但是对于许多文件，生成的 HTML 不合适。

此外，这两个过程都需要大量时间并使网站响应缓慢。

我想知道有没有更好的方法来实现这一目标？

下面附上图片以便更好地理解 -

c#pdf pdf-to-html evo

2019-12-19T05:28:23.410

0 投票

1 回答

88 浏览

python - 如何将 Python 中的 reportlab 生成的 PDF 转换为 HTML

我已经完成了一个带有表格、标题和可点击目录的PDF的生成。现在我想拥有一个. 是否可以使用相同的方法轻松生成 HTML 文件？HTML versionReportLab

python html python-3.x reportlab pdf-to-html

2020-05-05T12:42:33.270

1 2 3 4 5 6 7 8 9 10