问题标签 [pdf-to-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2685 浏览

poppler - 使用 pdftohtml poppler 实用程序将多页 PDF 转换为单个 html 文件

我正在使用 poppler 实用程序将 PDF 文档转换为 HTML。但它为每个页面创建单独的 html 文件,但在将 pdf 转换为 html 后我想要一个 HTML 文件。

我使用了以下语法:

但它创建 abc-1.html、abc-2.html、....等

我也尝试过 pdftohtml -c abc.pdf abc.html但没有得到预期的输出。

谁能告诉如何在单个文件而不是多个 html 文件中获取 html 输出?

0 投票
4 回答
11488 浏览

php - 使用 PHP 将 PDF 转为 HTML

我需要将一些 pdf 文件转换为 HTML。我为 PHP 下载了 pdftohtml,但我不知道如何使用它。我正在尝试使用以下代码运行它:

这会导致一个空白网页。

我需要修改什么?运行此脚本的正确代码是什么?

0 投票
0 回答
1169 浏览

php - PHP - 在 Pdf-to-html 中链接到 html 文件是错误的

Poppler Utils除了https://github.com/mgufrone/pdf-to-html ,我还为 windows 安装了

它完美地工作并且PDF files通过HTML使单个 HTML 文件包含2 个iframe,一个用于pages navigation,另一个用于actual text.

问题是当HTML文件生成时,链接iframe src给出了一个错误的链接。

例如:

  • Test.html

  • Pages.html

  • Page_1.html

所有这些文件都存在于名为“Output”的同一文件夹中。

Test.html包含 2 个iframes链接到Pages.htmlPage_1.html

这里的问题是Test.html

应该:

PDF.php

Base.php

0 投票
2 回答
162 浏览

php - 在从 pdf 转换的 html 中,图像始终位于顶部

我正在使用以下代码,并且特定 pdf 页面的所有内容都以正确的方式转换。但是,如果 pdf 页面中间有任何图像,则 HTML 中的该图像显示在顶部。

PHP代码:

编辑:

请检查我用于此的 pdf:https ://www.dropbox.com/s/6uy9wq27ff00n0x/create.pdf?dl=0

在此 PDF 中,图像在 2 行之后。

// 加载转换后的html页面。shell_exec 将 's' 添加到 html 文件,creates.html

// 输出

现在看看

就在身体标签之后。这意味着图像被移到顶部以代替第三行。

0 投票
1 回答
1148 浏览

php - php中的PDF转HTML和HTML转PDF解决方案

我需要将 PDF 文档转换为 HTML 并在编辑 html 之后将此 HTML 转换为 PDF 。我使用 'pdftohtml' ubuntu 命令(pdftohtml - 将 pdf 文件转换为 html、xml 和 png 图像的程序),如下面的 PHP 代码

它成功转换了整个文档,但它在页面顶部传递了所有图像。谁能帮我做这份工作?

0 投票
2 回答
1358 浏览

abcpdf - 使用 abcpdf 将 pdf 转换为 html

我正在寻找一种使用 abcpdf 将 pdf 文档转换为相应 html 文档的方法。请让我知道这是否可行。仅供参考,我的 pdf 文档具有丰富的文本和图像。

0 投票
0 回答
159 浏览

pdf - pdf转换只给出空白表格

我尝试了各种在线工具将 .pdf 文档转换为 excel,但我总是得到 4 个空白表格,或者它说文件大小很大,或者它给出了一些垃圾字符。有人可以给我一个免费转换文件的替代方案吗?这个文件非常复杂,数据量很大。该文件可以从https://lottery.mhada.gov.in/results/file/160622122051Mhada%20-%20Lottery%20Ad(English).pdf下载

请帮忙

0 投票
2 回答
1684 浏览

docker - pdf2htmlEX 无法打开或读取文件

我安装了 docker 并通过它运行 pdf2htmlEX

这是我的路径和 pdf 包含在里面:

运行以下命令时:

和 test.pdf 之前的完整路径的其他组合我继续无法读取文件错误。

我不确定权限是否是一个原因,但是在检查用户权限时它具有读写权限:

关于为什么找不到或无法读取那里的 pdf 文件的任何想法?我正在尝试将其转换为 .html

0 投票
1 回答
351 浏览

python - 在python中将html标签写入文本文件

我使用 pdfminer 将复杂(表格、数字)和非常长的 pdf 转换为 html。我想进一步解析结果(例如提取表格、段落等),然后使用 nltk 中的句子标记器进行进一步分析。为此,我想将 html 保存到文本文件以弄清楚如何进行解析。不幸的是,我的代码没有将 html 写入 txt:

此外,代码在 shell 中打印了整个 html 字符串:我怎样才能避免它?

0 投票
1 回答
457 浏览

html - 使用 pdf2htmlEX 转换多个文件

如何在多个文件或包含 pdf 文件的文件夹上使用 pdf2htmlEX?

我能够很好地转换单个文件,但我显然不想为 100 个文件运行 100 次命令。

我在文档中找不到任何内容,并且“*.pdf”之类的内容不起作用。

谢谢!