问题标签 [pdf-to-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdftk - 我们可以使用 pdf 到 html 转换器为任何字段设置唯一 id 吗?
我需要将可编辑的 pdf 转换为 html 并希望使用 unique_id 显示所有可编辑字段。是否可以使用转换器?下面是转换后的pdf的html。这里的标签以及复选框元素的属性几乎相同,我需要独立区分这些元素。有什么办法可以单独阅读。
javascript - 如何显示 html 格式的 pdf 并获取格式化的 html?
我需要在浏览器中显示 html 格式的 pdf 并选择、复制和编辑格式化的 html。
到目前为止,我尝试了 pdftohtml 命令行实用程序和 mozilla 的 pdf.js 平台。我似乎无法用一个实用程序很好地完成这两项任务。例如,我可以使用 pdf.js 非常准确地显示 pdf,但我无法生成格式化的文本图层,为选择文本而创建的叠加层只有定位样式而没有字体样式。
解决这个问题的最佳方法是什么?
pdf-to-html - 为什么在将 pdf 转换为 html 时出现“找不到图像”错误?
我正在使用 pdftohtml 工具使用以下命令将 pdf 转换为 html:这会导致以下错误:
pdftohtml -s -c SOURCE_FILE_NAME
到目前为止,我还没有设法找出为什么会发生这种情况。任何人都可以对此有所了解吗?
php - 如何使用 php 从 pdf、docx、doc 中获取 html 代码
我想使用 php 将任何 pdf、docx、doc 文件转换为 html 代码。与pdf中的样式相同。我没有得到适当的解决方案。
不为我工作。
php - Pdftohtml Poppler utils 不适用于 centOs
我正在尝试使用 mgufrone 库(https://github.com/mgufrone/pdf-to-html)将 pdf 转换为 php 中的 html。我在我的Mac上运行它,它工作正常。但是当我在 centos 服务器中运行时,.html 文件在 /vendor/gufy/pdftohtml-pdf/output 文件夹中创建为空白。在我的 mac 中,本地多个文件是在 /output 文件夹中创建的。但是在服务器中只创建了一个包含空内容的文件。请帮忙。
windows - pdf2htmlEX 无法将字体保存到
我在转换一些 pdf 文件时出错,它是:
我正在使用Windows最后一个可执行文件:
我正在测试它并在第 76 页失败,但如果我更改页面顺序,它仍然在第 76 页失败,即使我将其从文件中删除。即使使用命令也会失败: pdf2htmlEx test.pdf
并测试将其拆分为 10 页的文件,例如,它工作正常......但我不能使用它,我需要转换完整的 pdf。
python - 使用 HTMLConverter 时如何删除 UnicodeEncodeError
我正在尝试使用 HTML Converter 将 PDF 文件转换为 HTML 格式。下面提供的是我正在使用的代码。
但是在运行时,我收到以下错误:
我不确定如何使 HTMLConverter 的“converter.py”遵循 unicode 编码。
请帮忙!
php - 使用php将html页面保存在本地存储中
我正在使用PDFTOHTML(一个 php 库)将 pdf 文件转换为 html,它工作正常,但它在浏览器中显示转换后的文件,而不是存储在本地文件夹中,我想使用 php 将转换后的 html 存储在本地文件夹中,名称与pdf 即mydata.pdf到mydata.html 将 pdf 转换为 html 的代码是:-
python-3.x - 如何使用 Python 中的 tabula 库从 pdf 中提取所有表格?
任何人都可以提出一种方法来从 pdf 中提取其中包含已填充值的所有表格吗?
java - PDFDomTree 在将 pdf 文件转换为 html 时未检测到空格
我在我的 java 应用程序中使用带有 pdfbox-2.0.9 的 PDFDomTree 将 pdf 文件转换为 html 文件。以下代码我用来转换pdf。
现在我的问题是当我尝试分析输出 html 时,我意识到转换器无法检测两个单词之间的空格,因此我得到了一些单词连接。
如果需要,可以从此处访问相应的 pdf 文件。
谁能帮我解决这个问题?