问题标签 [pdf-to-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 是否有任何库可以帮助从可与 PHP 一起使用的矩形区域中提取 pdf 中的文本
我正在寻找一些(最好是免费的)库,它可以帮助从指定的矩形区域中提取 PDF 文本,该矩形区域由左、上、宽和高参数指定。它应该可以在 linux 系统上与 PHP 一起使用。您能否建议这样一个库和一个工作示例?
php - 在 PHP 中执行 shell 命令
在终端上,我在 Web 应用程序的目录中成功运行:
现在我想通过 PHP 做到这一点,所以我写了一个shell.sh
看起来像这样的文件:
然后我用php写了这个:
它不起作用,我希望看到生成的 html 文件,但是我得到了一些空的 html 文件。由于该命令通过终端运行良好,那么我认为问题出在我从 php 执行它的方式上
回显 $output 没有显示任何内容..我做错了什么?
php - Pdftohtml 在在线服务器上不起作用
我正在使用pdftohtml将 pdf 文件动态转换为 html 文件,我通过 linux 服务器上的 PHP 执行此操作。
我使用以下代码来测试 pdf 到 html 的转换:
它不起作用,echo $output
也不会输出任何东西,尽管任何其他 linux 命令(例如ls
and )make
都可以正常工作并显示相应的输出。
奇怪的是,完全相同的代码在 ubuntu 12.04 上的 localhost 上运行起来就像一个魅力,生成了 html 文件,并且shell_exec()
记录了页数和其他一些东西的一些输出。根据phpinfo()
web服务器的系统是:Linux infong 2.4 #1 SMP
关于如何让它工作的任何想法?
pdf-to-html - 如何使用 Homebrew 将 PDF 转换为 HTML?
我只是有人说使用自制软件将 PDF 转换为 HTML。我能够下载所有内容,但我不确定如何执行它。有人可以给我一步一步吗?
css - 使 HTML DIV/P 绝对位置适合任何屏幕
我将 PDF 文件转换为 HTML 单个文件。当它成功转换为 html 时,文本位置类似于它在 PDF 中的位置(这很好)。PDF 的大小为 8.5 x 11,我的问题是当它被转换为 html 时,文本以绝对定位定位,所以当我在移动 webview 中查看它时,文本会溢出。
这里有人可以对此有类似的问题吗?如何使绝对位置 div/p 适合任何屏幕?我想让 html 内容看起来与 pdf 文件相同。
提前致谢。
html - 使用 Linux -poppler-utils-pdftohtml 从 pdf 生成带有图像的 html
目前我正在使用 pdftohtml,在 CentOS 下,poppler-utils。这个概念很简单——用户上传 PDF 文件并查看该文件的 HTML 版本。我使用简单的命令 -
但它不起作用!稍后,我尝试使用没有框架的复杂开关创建 html:
还是没有运气!问题是 - pdf 文件的图像(图像在该 pdf 文件内)不能出现在 html 中,有时,图像重叠!有任何想法吗?
这是PHP代码 -
添加.php
保存.php
还有一件事 - pdftohtml 版本是 -0.36
这是截图 -
结果 -
python - PDF to HTML conversion / Regex replace and concat matches in Python
I have written a pdf to Excel converter. The conversion is done by linux command pdftohtml but sometimes it looks strange like these:
Obviously it should look like this:
I used multiple approaches, for example getting last characters and concat later by
but this doesnt return every letter. So whats wrong, why doesn't return this not all matches?
Further more I try to replace every <br>
-Tag between </b>
and <i>
but it doenst work as well.
Are these approaches right or is there a better one?
vector - 如何将 Adobe EPS /PDF 文件导入或转换为 Microsoft Expression Design 以进行编辑
我使用微软的表达式设计。
一个限制是缺少从 .EPF 或 PDF(一种 adobe 文件格式)导入或转换为 Microsoft Expression 以进行编辑。
我希望微软会支持这一点,但它只是在版本 4 的最后 3 年中缺乏。
您能否提供一些指示。
javascript - 将pdf转换为单页可编辑html
我一直在尝试将 pdf 文件转换为一个漂亮的 html 页面。在浏览它之后。我得到的解决方案有点缺乏我的要求。因为我必须为大约 200 个 pdf 文件创建单独的 html 页面。因为在线转换器可能不是领先的解决方案。因此,我尝试了以下解决方案以及未满足的要求。
-
+
很好地将 pdf 嵌入到 html 页面中。-
HTML 页面不可编辑,因为它只是将 pdf 嵌入到 html 页面。 -
+
将 pdf 转换为单个 html 页面。-
外观不是很好。 -
+
将 pdf 转换为具有可读外观的 html 页面。-
HTML 页面不可编辑。 -
+
将 pdf 转换为具有漂亮外观和 html css 的单个 html 页面。-
它为pdf中的单个页面创建了一个包含缩略图和html页面的大文件夹,这对于大量pdf文件可能不可行。
从哪里可以提高输出..