问题标签 [pdf-to-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2244 浏览

php - 是否有任何库可以帮助从可与 PHP 一起使用的矩形区域中提取 pdf 中的文本

我正在寻找一些(最好是免费的)库,它可以帮助从指定的矩形区域中提取 PDF 文本,该矩形区域由左、上、宽和高参数指定。它应该可以在 linux 系统上与 PHP 一起使用。您能否建议这样一个库和一个工作示例?

0 投票
1 回答
404 浏览

php - 在 PHP 中执行 shell 命令

在终端上,我在 Web 应用程序的目录中成功运行:

现在我想通过 PHP 做到这一点,所以我写了一个shell.sh看起来像这样的文件:

然后我用php写了这个:

它不起作用,我希望看到生成的 html 文件,但是我得到了一些空的 html 文件。由于该命令通过终端运行良好,那么我认为问题出在我从 php 执行它的方式上

回显 $output 没有显示任何内容..我做错了什么?

0 投票
3 回答
909 浏览

php - Pdftohtml 在在线服务器上不起作用

我正在使用pdftohtml将 pdf 文件动态转换为 html 文件,我通过 linux 服务器上的 PHP 执行此操作。

我使用以下代码来测试 pdf 到 html 的转换:

它不起作用,echo $output也不会输出任何东西,尽管任何其他 linux 命令(例如lsand )make都可以正常工作并显示相应的输出。

奇怪的是,完全相同的代码在 ubuntu 12.04 上的 localhost 上运行起来就像一个魅力,生成了 html 文件,并且shell_exec()记录了页数和其他一些东西的一些输出。根据phpinfo()web服务器的系统是:Linux infong 2.4 #1 SMP

关于如何让它工作的任何想法?

0 投票
1 回答
858 浏览

pdf-to-html - 如何使用 Homebrew 将 PDF 转换为 HTML?

我只是有人说使用自制软件将 PDF 转换为 HTML。我能够下载所有内容,但我不确定如何执行它。有人可以给我一步一步吗?

0 投票
2 回答
2428 浏览

css - 使 HTML DIV/P 绝对位置适合任何屏幕

我将 PDF 文件转换为 HTML 单个文件。当它成功转换为 html 时,文本位置类似于它在 PDF 中的位置(这很好)。PDF 的大小为 8.5 x 11,我的问题是当它被转换为 html 时,文本以绝对定位定位,所以当我在移动 webview 中查看它时,文本会溢出。

这里有人可以对此有类似的问题吗?如何使绝对位置 div/p 适合任何屏幕?我想让 html 内容看起来与 pdf 文件相同。

提前致谢。

0 投票
1 回答
8210 浏览

html - 使用 Linux -poppler-utils-pdftohtml 从 pdf 生成带有图像的 html

目前我正在使用 pdftohtml,在 CentOS 下,poppler-utils。这个概念很简单——用户上传 PDF 文件并查看该文件的 HTML 版本。我使用简单的命令 -

但它不起作用!稍后,我尝试使用没有框架的复杂开关创建 html:

还是没有运气!问题是 - pdf 文件的图像(图像在该 pdf 文件内)不能出现在 html 中,有时,图像重叠!有任何想法吗?

这是PHP代码 -

添加.php

保存.php

还有一件事 - pdftohtml 版本是 -0.36

这是截图 -

在此处输入图像描述

结果 - 在此处输入图像描述

0 投票
0 回答
279 浏览

python - PDF to HTML conversion / Regex replace and concat matches in Python

I have written a pdf to Excel converter. The conversion is done by linux command pdftohtml but sometimes it looks strange like these:

Obviously it should look like this:

I used multiple approaches, for example getting last characters and concat later by

but this doesnt return every letter. So whats wrong, why doesn't return this not all matches? Further more I try to replace every <br>-Tag between </b> and <i>

but it doenst work as well.

Are these approaches right or is there a better one?

0 投票
1 回答
885 浏览

vector - 如何将 Adob​​e EPS /PDF 文件导入或转换为 Microsoft Expression Design 以进行编辑

我使用微软的表达式设计。

一个限制是缺少从 .EPF 或 PDF(一种 adobe 文件格式)导入或转换为 Microsoft Expression 以进行编辑。

我希望微软会支持这一点,但它只是在版本 4 的最后 3 年中缺乏。

您能否提供一些指示。

0 投票
3 回答
20305 浏览

pdf - 将pdf转换为矢量图像

我正在尝试在我的网页中使用 pdf 内容(数学)。我基本上想将pdf转换为一些矢量图像。将 pdf 转换为 swf 可以很好地完成这项工作,但由于并非每个平台都支持 flash,因此我正在尝试寻找另一种解决方案。

我读过 svg,但由于那些 pdf 包含大量数学,我发现的转换器的结果非常丑陋和不正确。

我还考虑过重新键入乳胶,并使用 mathjax 显示它,在某种程度上这是最好的解决方案,但也非常耗时。

我唯一想要的是将其转换为漂亮的矢量图像,我不想更改内容或其他任何内容。除了转换为 swf 或重新输入,还有其他解决方案吗?

编辑:这是 svg输出
,这里是原始pdf

0 投票
2 回答
5449 浏览

javascript - 将pdf转换为单页可编辑html

我一直在尝试将 pdf 文件转换为一个漂亮的 html 页面。在浏览它之后。我得到的解决方案有点缺乏我的要求。因为我必须为大约 200 个 pdf 文件创建单独的 html 页面。因为在线转换器可能不是领先的解决方案。因此,我尝试了以下解决方案以及未满足的要求。

  • html5的嵌入标签

    +很好地将 pdf 嵌入到 html 页面中。

    -HTML 页面不可编辑,因为它只是将 pdf 嵌入到 html 页面。

  • pdftohtml

    +将 pdf 转换为单个 html 页面。

    -外观不是很好。

  • pdf.js

    +将 pdf 转换为具有可读外观的 html 页面。

    -HTML 页面不可编辑。

  • jpdf2html

    +将 pdf 转换为具有漂亮外观和 html css 的单个 html 页面。

    -它为pdf中的单个页面创建了一个包含缩略图和html页面的大文件夹,这对于大量pdf文件可能不可行。

从哪里可以提高输出..