问题标签 [pdf-to-html]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

74 问题

0 投票

0 回答

2205 浏览

pdf - PDF to HTML and OCR solution for information extraction

I'm looking for a solution for PDF to HTML and OCR service in the cloud or in the SDK format. After my searches, I see that there are bunch of services out there in the internet. I tried some of them and I got some idea. I'd like to know that if any of you use such service.

My biggest concerns are to have a automation structure to have an HTML output that I can use in the information extraction. I'd like to have structured data output like tables. (most of the services provide HTML output with the -character format (CSS/HTML tag for each char) or -paragraph format (CSS/HTML for each line).

I checked so far :

Abbyy Cloud SDK (They don't have PDF-to-HTML service but PDF-to-XML that can be covertable to HTML with XSLT support (maybe). Also OCR service with text output is quite good)
cloudconvert.org (They are providing the same results as Ubuntu pdftohtml command which is based on poppler-Xpdf3.0)
pdftohtml commamd (Tested on Ubuntu) - I got a result with full of < p >.
aspose.PDF (They don't have PDF-to-HTML service in the cloud but they have good integration with GDrive, Dropbox and Amazon s3.
PdfNET of PDFTron : I got a result with complex CSS and HTML structure with almost a tag per character.

My question is if you know any other service worth to try and get structural HTML output for data extraction.

Thanks in advance.

2013-09-20T14:58:10.620

0 投票

2 回答

1136 浏览

pdf-generation - HiqPdf 渲染/布局引擎

我的公司使用 HiqPdf 已经有一段时间了，我们讨论了 HiqPdf 用什么渲染引擎解析它的 html。我们在 HiqPdf 本身的网站和 stackoverflow 上都找不到它。

http://www.hiqpdf.com/

我会怀疑Webkit，但有人肯定知道吗？

pdf-generation pdf-to-html hiqpdf

2014-02-19T16:10:09.467

0 投票

2 回答

13327 浏览

pdf - 从 PDF 中提取表格数据

是否有任何一致的方法可以从 PDF 文件中提取表格？有什么工具吗？

到目前为止我做了什么：

我已经尝试过pdftotext工具。它有一个转换为 HTML 布局的选项。

这有什么问题：

HTML 输出中不保留表格信息
我期待<table>标签，但一切都在<p>标签下。

PDF 文档中是否有任何标记来指示表格结构？像<table>,<tr>和<td>在 HTML 中？

如果“是”，任何指向此的指针都会有所帮助。如果“否”，有关此事实的明确信息也很有帮助。

pdf pdftotext pdf-to-html

2014-05-06T12:56:21.080

0 投票

0 回答

60 浏览

javascript - 来自pdf的幻灯片

如果有人知道 google 或hakim 框架的 html5slides 也适用于多页 pdf？我想运行幻灯片，但基于许多 pdf 文件。有时一页，其他许多页。每页应该是幻灯片中的 1 张幻灯片。

提前致谢。

javascript php html pdf-to-html

2014-05-11T09:56:58.907

0 投票

1 回答

813 浏览

python - 为 Python 安装 Scraperwiki 会生成错误 pdftohtml not found

我一直在尝试为 Python 安装 Scraperwiki 模块。但是，它会产生错误：

""用户警告：本地 Scraperlibs 需要 pdftohtml，但在 PATH 中找不到 pdftohtml。您可能需要安装它”。

我查看了 poppler，因为他们有 pdftohtml 文件，但我不知道它是如何工作的 - 是否需要安装 python 库或 .exe 文件。以及我该如何安装它。在 Windows 上运行。

非常感谢

python poppler scraperwiki pdf-to-html

2014-05-15T09:56:02.187

0 投票

0 回答

844 浏览

html - 将 PDF 转换为 HTML（代码）

有什么方法可以将 pdf 文件转换为 HTML 代码？我创建了在 HTML 中转换 PDF 的工具，但都将 PDF 转换为图像并将其插入到 html 页面中。我需要在 html 代码中转换 PDF 以生成动态页面。

html pdf pdf-to-html

2014-06-16T07:40:51.100

0 投票

2 回答

1936 浏览

java - 在java中使用API将PDF转换为Html

即使使用图像图形，我也想将大型 PDF 文件转换为具有正确格式的 HTML。我尝试使用aspose，但它只转换了 10 页 PDF 文件中的 2 页。请建议我使用 java 中的任何好的 API 来将大型 PDF 转换为 HTML。

java aspose pdf-to-html

2014-06-25T04:50:15.180

0 投票

1 回答

2904 浏览

c# - 从 PDF 文档中提取表格

我想以PDF编程方式使用 C# 为大学项目提取文档中的表格。我很熟悉itextsharp。

有没有办法可以提取表格itextsharp？
我可以为此目的使用任何其他免费库吗？
我可以将其转换PDF为 XML/HTML 以提取<table>标签吗？如果可以，是否有一个免费的库可以用于PDFHTML 转换？

或者

请给我一个合适的解决方案。

c#pdf itextsharp pdf-to-html

2014-08-20T16:14:35.410

0 投票

0 回答

181 浏览

bash - 带有文件夹组织的 pdftohtml 的 bash 脚本（怪癖）

这是我认为我需要帮助的代码：
find . -name "*.png" -exec mv "{}" ./"$1"-dir \;

在 bash 函数中使用 pdftohtml 将一大堆 pdf（数千个）放入他们自己的文件夹中。

不幸的是，pdftohtml 将图像保存在与 pdf 组相同的文件夹中。我现在很接近但需要帮助将所有 .pngs 移动到正确的文件夹中。

由于某种原因，此代码仅将所有 pdf 图像保存在创建的最后一个文件夹中。

感谢您的关注！

bash pdf batch-processing pdf-to-html

2015-01-29T04:34:09.067

0 投票

2 回答

1649 浏览

pdf - 如何使用动态值创建 pdf 模板

我一个月前就被困在这个任务中了，所以我的最后一个选择是在堆栈溢出上发布我的查询。我必须找到一个 PDF 创建工具，我可以在其中创建我的 PDF 模板，也可以分配一个数据源，如 sql server 或其他任何东西。sql server 动态数据可以通过它替换pdf模板标签的值。我试过很多工具，比如 Foxit 和 bulzip 。但是任何工具都不符合我的要求。我必须说我完全陷入了这个任务。所以请给我适当的解决方案。立即响应将不胜感激。

pdf pdf-generation pdf-to-html dynamicpdf

2015-03-31T09:04:22.777

1 2 3 4 5 6 7 8 9 10

问题标签 [pdf-to-html]

Reference