问题标签 [pdf-to-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
520 浏览

java - 提供者 com.levigo.jbig2.util.log.JDKLoggerBridge 不是子类型

使用以下代码将 PDF 文件写入 HTML 文件格式时...

build.gradle文件具有以下依赖项列表...

哦,快!从 JDK 收到以下消息...

在搜索了有关此错误的更多信息后,没有任何线索。如果有人对此有任何想法,请对此提出一些建议。

谢谢

0 投票
0 回答
329 浏览

java - 寻找解决方法以使用 pdf2dom 成功转换 PDType0Font 和 PDType1Fonts

我们正在使用pdf2dom库将大量报纸 pdf 转换为 html。每天有问题的 pdf 数量超过 5k pdf 页。

尽管我们在大多数情况下都成功了,但在大多数情况下我们都无法完全转换 pdf。并得到以下类型的错误 -

字体:Helvetica 已跳过,因为不支持类型“PDType1Font”。

找不到字形名称的字符代码。名称:'fraction' GlyphID:'217' 找不到字形名称的字符代码。名称:'fi' GlyphID:'218' 找不到字形名称的字符代码。名称:'fl' GlyphID:'219' 找不到字形名称的字符代码。名称:'breve' GlyphID:'220' 找不到字形名称的字符代码。名称:'dotaccent' GlyphID:'221' 找不到字形名称的字符代码。名称:'ring' GlyphID:'222'

问题转换 Bare CFF 字体或 Pdf2Dom 不支持字体类型,字体:UniversLTStd-Bold 异常:索引:0,大小:0 类 java.lang.IndexOutOfBoundsException

字体:RXKFZF+*Calibri-Bold 已跳过,因为不支持“PDType0Font”类型。

由于我们的目标是将 pdf 转换为具有完整文本和适当格式信息(即大小/粗体/斜体等)的 html,并且我们可以忽略字体,因此我们正在寻找一种有效的方法来转换/替换不支持的 Type 1 和 Type 0具有等效字体的字体。

任何解决方法和指针都会非常有帮助。

0 投票
1 回答
702 浏览

javascript - 有没有办法使用javascript和angular或任何其他javascript从可编辑的pdf中获取数据

我正在尝试在 UI 中显示一个 PDF,其中有一些字段要由用户填写,我正在尝试访问填充的数据,但我无法访问任何人都可以建议一种方法来访问 PDF 中的表单数据或任何其他简单的方法实现这个功能

我已经尝试使用嵌入来显示 PDF,但我无法访问用户填写的数据

最终结果就像用户应该能够编辑任意次数的 PDF 中的字段只有一次他可以将数据提交到数据库

0 投票
1 回答
2478 浏览

javascript - 如何在使用 JSPDF 新 html API 从 html 生成 pdf 时给出宽度、高度、x 和 y 坐标

我一直在使用 JSPDF 来生成基于一些 html 的 pdf 文档。早些时候使用来自HTML Api的jspdf,我们可以像这样给出边距

但是,在新的 .html API 中,我如何提供边距、宽度和高度。新的 API 就像

0 投票
0 回答
256 浏览

php - 从 GCP Vision PDF 结果返回格式化文本

我终于得到了将 PDF 文档提交到 Google Storage 的脚本,然后使用 Google Vision for PDF 提取文本,如文档中所述。

数据以一个巨大的 JSON 文件返回。有一个节点包含测试,但不再格式化。只有换行符用\n. 我不太关心换行符,就像段落一样。

我怎样才能返回它的格式?是否有任何库可以与 GCP 一起使用以增强 JSON 输出?

0 投票
0 回答
70 浏览

abcpdf - 是否可以使用 AbsPDF 将 PDF 转换为 html 并将所有 css 和 javascript 嵌入到 html 中

基本上是标题。我正在尝试使用 AbcPDF 将 pdf 转换为 html

这将创建 Some.html 和一个名为 Some 的文件夹,其中将包含 Some.js、Some.css、excanvas-compiled.js 和 Wingdings_Type0_0.otf

我想要的是将所有这些组合到 html 中。这可能吗?

0 投票
1 回答
4582 浏览

python - 如何修复“无法从'pdfminer.pdfinterp'导入名称'process_pdf'”错误

我正在尝试将 pdf 文件中的文本转换为文本或 HTML 格式,但此错误经常发生 'cannot import name 'process_pdf' from 'pdfminer.pdfinterp' ' 如何删除这个?

我已经在 Visual Basic Studio 中尝试过这段代码,但它仍然无法正常工作,但在这种情况下,由于空格,我得到了缩进错误,所以我在 jupyter notebook 中尝试了这个并得到了这个错误。

0 投票
0 回答
47 浏览

pdfbox - 用于检查 pdf 页面的命令行是否包含图像

我当前使用pdftohtmlfrompoppler从 pdf 文件生成 html 输出,然后检查 html 文件中哪个页面包含图像。

是否有可以直接打印包含图像的页数的命令行程序?

0 投票
1 回答
2130 浏览

c# - PDF 网站上 DIV 中的首页图像预览

在我的系统中,网站中列出了多个 PDF。我需要显示所有 PDF 第一页的预览图像。我想显示两个预览 -

  • 一个小预览
  • 鼠标悬停的一大预览

我现在在做什么?

我们正在帮助一些第三方预览生成器。用于创建 JPEG 图像并使用网站中的这些图像进行预览。

我有什么不同的尝试?

我使用EvoPDFtoHTML工具直接使用 HTML 而不是图像,但是对于许多文件,生成的 HTML 不合适。

此外,这两个过程都需要大量时间并使网站响应缓慢。

我想知道有没有更好的方法来实现这一目标?

下面附上图片以便更好地理解 -

在此处输入图像描述

0 投票
1 回答
88 浏览

python - 如何将 Python 中的 reportlab 生成的 PDF 转换为 HTML

我已经完成了一个带有表格、标题和可点击目录的PDF的生成。现在我想拥有一个. 是否可以使用相同的方法轻松生成 HTML 文件?HTML versionReportLab