问题标签 [pdf-to-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
2205 浏览

pdf - PDF to HTML and OCR solution for information extraction

I'm looking for a solution for PDF to HTML and OCR service in the cloud or in the SDK format. After my searches, I see that there are bunch of services out there in the internet. I tried some of them and I got some idea. I'd like to know that if any of you use such service.

My biggest concerns are to have a automation structure to have an HTML output that I can use in the information extraction. I'd like to have structured data output like tables. (most of the services provide HTML output with the -character format (CSS/HTML tag for each char) or -paragraph format (CSS/HTML for each line).

I checked so far :

  • Abbyy Cloud SDK (They don't have PDF-to-HTML service but PDF-to-XML that can be covertable to HTML with XSLT support (maybe). Also OCR service with text output is quite good)
  • cloudconvert.org (They are providing the same results as Ubuntu pdftohtml command which is based on poppler-Xpdf3.0)
  • pdftohtml commamd (Tested on Ubuntu) - I got a result with full of < p >.
  • aspose.PDF (They don't have PDF-to-HTML service in the cloud but they have good integration with GDrive, Dropbox and Amazon s3.
  • PdfNET of PDFTron : I got a result with complex CSS and HTML structure with almost a tag per character.

My question is if you know any other service worth to try and get structural HTML output for data extraction.

Thanks in advance.

0 投票
2 回答
1136 浏览

pdf-generation - HiqPdf 渲染/布局引擎

我的公司使用 HiqPdf 已经有一段时间了,我们讨论了 HiqPdf 用什么渲染引擎解析它的 html。我们在 HiqPdf 本身的网站和 stackoverflow 上都找不到它。

http://www.hiqpdf.com/

我会怀疑Webkit,但有人肯定知道吗?

0 投票
2 回答
13327 浏览

pdf - 从 PDF 中提取表格数据

是否有任何一致的方法可以从 PDF 文件中提取表格?有什么工具吗?

到目前为止我做了什么:

  • 我已经尝试过pdftotext工具。它有一个转换为 HTML 布局的选项。

这有什么问题:

  • HTML 输出中不保留表格信息
  • 我期待<table>标签,但一切都在<p>标签下。

PDF 文档中是否有任何标记来指示表格结构?像<table>,<tr><td>在 HTML 中?

如果“是”,任何指向此的指针都会有所帮助。如果“否”,有关此事实的明确信息也很有帮助。

0 投票
0 回答
60 浏览

javascript - 来自pdf的幻灯片

如果有人知道 google 或hakim 框架的 html5slides 也适用于多页 pdf?我想运行幻灯片,但基于许多 pdf 文件。有时一页,其他许多页。每页应该是幻灯片中的 1 张幻灯片。

提前致谢。

0 投票
1 回答
813 浏览

python - 为 Python 安装 Scraperwiki 会生成错误 pdftohtml not found

我一直在尝试为 Python 安装 Scraperwiki 模块。但是,它会产生错误:

""用户警告:本地 Scraperlibs 需要 pdftohtml,但在 PATH 中找不到 pdftohtml。您可能需要安装它”

我查看了 poppler,因为他们有 pdftohtml 文件,但我不知道它是如何工作的 - 是否需要安装 python 库或 .exe 文件。以及我该如何安装它。在 Windows 上运行。

非常感谢

0 投票
0 回答
844 浏览

html - 将 PDF 转换为 HTML(代码)

有什么方法可以将 pdf 文件转换为 HTML 代码?我创建了在 HTML 中转换 PDF 的工具,但都将 PDF 转换为图像并将其插入到 html 页面中。我需要在 html 代码中转换 PDF 以生成动态页面。

0 投票
2 回答
1936 浏览

java - 在java中使用API​​将PDF转换为Html

即使使用图像图形,我也想将大型 PDF 文件转换为具有正确格式的 HTML。我尝试使用aspose,但它只转换了 10 页 PDF 文件中的 2 页。请建议我使用 java 中的任何好的 API 来将大型 PDF 转换为 HTML。

0 投票
1 回答
2904 浏览

c# - 从 PDF 文档中提取表格

我想以PDF编程方式使用 C# 为大学项目提取文档中的表格。我很熟悉itextsharp

  1. 有没有办法可以提取表格itextsharp

  2. 我可以为此目的使用任何其他免费库吗?

  3. 我可以将其转换PDF为 XML/HTML 以提取<table>标签吗?如果可以,是否有一个免费的库可以用于PDFHTML 转换?

    或者

请给我一个合适的解决方案。

0 投票
0 回答
181 浏览

bash - 带有文件夹组织的 pdftohtml 的 bash 脚本(怪癖)

这是我认为我需要帮助的代码:
find . -name "*.png" -exec mv "{}" ./"$1"-dir \;

在 bash 函数中使用 pdftohtml 将一大堆 pdf(数千个)放入他们自己的文件夹中。

不幸的是,pdftohtml 将图像保存在与 pdf 组相同的文件夹中。我现在很接近但需要帮助将所有 .pngs 移动到正确的文件夹中。

由于某种原因,此代码仅将所有 pdf 图像保存在创建的最后一个文件夹中。

感谢您的关注!

0 投票
2 回答
1649 浏览

pdf - 如何使用动态值创建 pdf 模板

我一个月前就被困在这个任务中了,所以我的最后一个选择是在堆栈溢出上发布我的查询。我必须找到一个 PDF 创建工具,我可以在其中创建我的 PDF 模板,也可以分配一个数据源,如 sql server 或其他任何东西。sql server 动态数据可以通过它替换pdf模板标签的值。我试过很多工具,比如 Foxit 和 bulzip 。但是任何工具都不符合我的要求。我必须说我完全陷入了这个任务。所以请给我适当的解决方案。立即响应将不胜感激。