问题标签 [pdf-to-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - PDF to HTML and OCR solution for information extraction
I'm looking for a solution for PDF to HTML and OCR service in the cloud or in the SDK format. After my searches, I see that there are bunch of services out there in the internet. I tried some of them and I got some idea. I'd like to know that if any of you use such service.
My biggest concerns are to have a automation structure to have an HTML output that I can use in the information extraction. I'd like to have structured data output like tables. (most of the services provide HTML output with the -character format (CSS/HTML tag for each char) or -paragraph format (CSS/HTML for each line).
I checked so far :
- Abbyy Cloud SDK (They don't have PDF-to-HTML service but PDF-to-XML that can be covertable to HTML with XSLT support (maybe). Also OCR service with text output is quite good)
- cloudconvert.org (They are providing the same results as Ubuntu pdftohtml command which is based on poppler-Xpdf3.0)
- pdftohtml commamd (Tested on Ubuntu) - I got a result with full of < p >.
- aspose.PDF (They don't have PDF-to-HTML service in the cloud but they have good integration with GDrive, Dropbox and Amazon s3.
- PdfNET of PDFTron : I got a result with complex CSS and HTML structure with almost a tag per character.
My question is if you know any other service worth to try and get structural HTML output for data extraction.
Thanks in advance.
pdf-generation - HiqPdf 渲染/布局引擎
我的公司使用 HiqPdf 已经有一段时间了,我们讨论了 HiqPdf 用什么渲染引擎解析它的 html。我们在 HiqPdf 本身的网站和 stackoverflow 上都找不到它。
我会怀疑Webkit,但有人肯定知道吗?
pdf - 从 PDF 中提取表格数据
是否有任何一致的方法可以从 PDF 文件中提取表格?有什么工具吗?
到目前为止我做了什么:
- 我已经尝试过
pdftotext
工具。它有一个转换为 HTML 布局的选项。
这有什么问题:
- HTML 输出中不保留表格信息
- 我期待
<table>
标签,但一切都在<p>
标签下。
PDF 文档中是否有任何标记来指示表格结构?像<table>
,<tr>
和<td>
在 HTML 中?
如果“是”,任何指向此的指针都会有所帮助。如果“否”,有关此事实的明确信息也很有帮助。
javascript - 来自pdf的幻灯片
如果有人知道 google 或hakim 框架的 html5slides 也适用于多页 pdf?我想运行幻灯片,但基于许多 pdf 文件。有时一页,其他许多页。每页应该是幻灯片中的 1 张幻灯片。
提前致谢。
python - 为 Python 安装 Scraperwiki 会生成错误 pdftohtml not found
我一直在尝试为 Python 安装 Scraperwiki 模块。但是,它会产生错误:
""用户警告:本地 Scraperlibs 需要 pdftohtml,但在 PATH 中找不到 pdftohtml。您可能需要安装它”。
我查看了 poppler,因为他们有 pdftohtml 文件,但我不知道它是如何工作的 - 是否需要安装 python 库或 .exe 文件。以及我该如何安装它。在 Windows 上运行。
非常感谢
html - 将 PDF 转换为 HTML(代码)
有什么方法可以将 pdf 文件转换为 HTML 代码?我创建了在 HTML 中转换 PDF 的工具,但都将 PDF 转换为图像并将其插入到 html 页面中。我需要在 html 代码中转换 PDF 以生成动态页面。
java - 在java中使用API将PDF转换为Html
即使使用图像图形,我也想将大型 PDF 文件转换为具有正确格式的 HTML。我尝试使用aspose,但它只转换了 10 页 PDF 文件中的 2 页。请建议我使用 java 中的任何好的 API 来将大型 PDF 转换为 HTML。
c# - 从 PDF 文档中提取表格
我想以PDF
编程方式使用 C# 为大学项目提取文档中的表格。我很熟悉itextsharp
。
有没有办法可以提取表格
itextsharp
?我可以为此目的使用任何其他免费库吗?
我可以将其转换
PDF
为 XML/HTML 以提取<table>
标签吗?如果可以,是否有一个免费的库可以用于PDF
HTML 转换?或者
请给我一个合适的解决方案。
bash - 带有文件夹组织的 pdftohtml 的 bash 脚本(怪癖)
这是我认为我需要帮助的代码:
find . -name "*.png" -exec mv "{}" ./"$1"-dir \;
在 bash 函数中使用 pdftohtml 将一大堆 pdf(数千个)放入他们自己的文件夹中。
不幸的是,pdftohtml 将图像保存在与 pdf 组相同的文件夹中。我现在很接近但需要帮助将所有 .pngs 移动到正确的文件夹中。
由于某种原因,此代码仅将所有 pdf 图像保存在创建的最后一个文件夹中。
感谢您的关注!
pdf - 如何使用动态值创建 pdf 模板
我一个月前就被困在这个任务中了,所以我的最后一个选择是在堆栈溢出上发布我的查询。我必须找到一个 PDF 创建工具,我可以在其中创建我的 PDF 模板,也可以分配一个数据源,如 sql server 或其他任何东西。sql server 动态数据可以通过它替换pdf模板标签的值。我试过很多工具,比如 Foxit 和 bulzip 。但是任何工具都不符合我的要求。我必须说我完全陷入了这个任务。所以请给我适当的解决方案。立即响应将不胜感激。