问题标签 [pdf-to-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 提供者 com.levigo.jbig2.util.log.JDKLoggerBridge 不是子类型
使用以下代码将 PDF 文件写入 HTML 文件格式时...
build.gradle文件具有以下依赖项列表...
哦,快!从 JDK 收到以下消息...
在搜索了有关此错误的更多信息后,没有任何线索。如果有人对此有任何想法,请对此提出一些建议。
谢谢
java - 寻找解决方法以使用 pdf2dom 成功转换 PDType0Font 和 PDType1Fonts
我们正在使用pdf2dom库将大量报纸 pdf 转换为 html。每天有问题的 pdf 数量超过 5k pdf 页。
尽管我们在大多数情况下都成功了,但在大多数情况下我们都无法完全转换 pdf。并得到以下类型的错误 -
字体:Helvetica 已跳过,因为不支持类型“PDType1Font”。
和
找不到字形名称的字符代码。名称:'fraction' GlyphID:'217' 找不到字形名称的字符代码。名称:'fi' GlyphID:'218' 找不到字形名称的字符代码。名称:'fl' GlyphID:'219' 找不到字形名称的字符代码。名称:'breve' GlyphID:'220' 找不到字形名称的字符代码。名称:'dotaccent' GlyphID:'221' 找不到字形名称的字符代码。名称:'ring' GlyphID:'222'
和
问题转换 Bare CFF 字体或 Pdf2Dom 不支持字体类型,字体:UniversLTStd-Bold 异常:索引:0,大小:0 类 java.lang.IndexOutOfBoundsException
和
字体:RXKFZF+*Calibri-Bold 已跳过,因为不支持“PDType0Font”类型。
由于我们的目标是将 pdf 转换为具有完整文本和适当格式信息(即大小/粗体/斜体等)的 html,并且我们可以忽略字体,因此我们正在寻找一种有效的方法来转换/替换不支持的 Type 1 和 Type 0具有等效字体的字体。
任何解决方法和指针都会非常有帮助。
javascript - 有没有办法使用javascript和angular或任何其他javascript从可编辑的pdf中获取数据
我正在尝试在 UI 中显示一个 PDF,其中有一些字段要由用户填写,我正在尝试访问填充的数据,但我无法访问任何人都可以建议一种方法来访问 PDF 中的表单数据或任何其他简单的方法实现这个功能
我已经尝试使用嵌入来显示 PDF,但我无法访问用户填写的数据
最终结果就像用户应该能够编辑任意次数的 PDF 中的字段只有一次他可以将数据提交到数据库
javascript - 如何在使用 JSPDF 新 html API 从 html 生成 pdf 时给出宽度、高度、x 和 y 坐标
我一直在使用 JSPDF 来生成基于一些 html 的 pdf 文档。早些时候使用来自HTML Api的jspdf,我们可以像这样给出边距
但是,在新的 .html API 中,我如何提供边距、宽度和高度。新的 API 就像
php - 从 GCP Vision PDF 结果返回格式化文本
我终于得到了将 PDF 文档提交到 Google Storage 的脚本,然后使用 Google Vision for PDF 提取文本,如文档中所述。
数据以一个巨大的 JSON 文件返回。有一个节点包含测试,但不再格式化。只有换行符用\n
. 我不太关心换行符,就像段落一样。
我怎样才能返回它的格式?是否有任何库可以与 GCP 一起使用以增强 JSON 输出?
abcpdf - 是否可以使用 AbsPDF 将 PDF 转换为 html 并将所有 css 和 javascript 嵌入到 html 中
基本上是标题。我正在尝试使用 AbcPDF 将 pdf 转换为 html
这将创建 Some.html 和一个名为 Some 的文件夹,其中将包含 Some.js、Some.css、excanvas-compiled.js 和 Wingdings_Type0_0.otf
我想要的是将所有这些组合到 html 中。这可能吗?
python - 如何修复“无法从'pdfminer.pdfinterp'导入名称'process_pdf'”错误
我正在尝试将 pdf 文件中的文本转换为文本或 HTML 格式,但此错误经常发生 'cannot import name 'process_pdf' from 'pdfminer.pdfinterp' ' 如何删除这个?
我已经在 Visual Basic Studio 中尝试过这段代码,但它仍然无法正常工作,但在这种情况下,由于空格,我得到了缩进错误,所以我在 jupyter notebook 中尝试了这个并得到了这个错误。
pdfbox - 用于检查 pdf 页面的命令行是否包含图像
我当前使用pdftohtml
frompoppler
从 pdf 文件生成 html 输出,然后检查 html 文件中哪个页面包含图像。
是否有可以直接打印包含图像的页数的命令行程序?
python - 如何将 Python 中的 reportlab 生成的 PDF 转换为 HTML
我已经完成了一个带有表格、标题和可点击目录的PDF的生成。现在我想拥有一个. 是否可以使用相同的方法轻松生成 HTML 文件?HTML version
ReportLab