问题标签 [pdf-to-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
asp.net - 在 ASP.NET 中,将 PDF 文件转换为 HTML 的最佳方法是什么?
我的用户要做的是在他们的机器上选择一个 PDF 文档,将其上传到我的网站,在那里我将转换为 HTML 文档以在网站上显示。该文件将在转换后存储在数据库中。
将 PDF 转换为 HTML 的最佳方法是什么?
我收到了一个要求,用户将创建一个 pdf 格式的“新闻”故事,然后将其上传到服务器,在那里它将转换为 HTML 并显示在网站上。
php - 将 PDF 转换为 HTML
将要在浏览器中查看的 PDF 文档转换为 HTML 的最佳解决方案是什么?该站点有几个 PDF 文档,访问者可以单击以 HTML 格式查看,这应该在屏幕上以 HTML 文件的形式查看。
运行 PHP、Linux、Apache 的标准网站。
pdf-to-html - 如何将pdf文档转换为html文件?
应该保持格式,看起来几乎和原来的一样。
c# - 使用 c# 将 pdf 转换为 html/xml
我想使用 c#将 pdf 转换为 html ...任何人都可以提供任何想法..
pdftotext - pdftohtml 的替代品
我正在尝试使用 pdftohtml,但我发现它有时难以正确解析表格。它将两列中的文本分组到一个单元格中,这使我尝试解析结果数据是徒劳的!
请注意,这仅在 PDF 中发生一次或两次,并且非常不可预测。
我已经尝试过最新版本的 pdftohtml(包括 0.40a 测试版),但无济于事。
有人知道任何可能值得尝试的与 Linux 兼容的等价物吗?
谢谢,
山姆
php - 多页PDF的基于Javascript的水平滚动?
我想知道如何使用 JavaScript 完成 PDF 页面的水平滚动。是否更好:
- 将 PDF 的页面转换为 HTML 文件,然后在 src="...each page.html"?
- 将 PDF 的页面转换为 iframe 之外的其他 HTML 元素(例如,DIV?),然后在包含每个页面内容的元素之间单击左右。
我想确保 PDF 的文本是可搜索的,所以我不想把它的页面变成图像。我也对使用 iframe 持怀疑态度,因为在单个网页中拥有多个 iframe 会带来格式挑战。在使用“PDFtoHTML”基于 linux 的软件将 PDF 转换为 HTML 之后,我已经测试了这种方法,发现通常这是一个次优的解决方案。
似乎选项 2 是要走的路,但不知道如何以编程方式将 PDF 解析为多个 DIV。除了 JavaScript,我熟悉 PHP 和 Linux,但不熟悉其他语言,如果这有助于思考解决方案的话。
php - PHP shell_exec,执行-rwxrwxrwx shell脚本的权限被拒绝
我目前在运行 Apache 网络服务器的远程 CentOS 5.6 系统上通过 ssh。我需要使用 popplerpdftohtml
二进制文件,不幸的是,该二进制文件当前未安装在该机器上。所以我下载了 poppler 包并将其构建在我的用户文件夹下。由于我不是系统管理员,所以我没有这样做
我有我所有的编译文件
我需要通过php执行的文件shell_exec()
是
如果我通过我的 ssh bash 执行它,我会得到正确的输出。相反,如果我将此行放在 php 脚本上:
我得到以下输出:
我尝试将文件权限设置为 777,目前是 -rwxrwxrwx。我还注意到shell_exec("whoami");
在“apache”中使用结果。如果文件权限是-rwxrwxrwx,apache不应该能够执行脚本吗?
我也知道通过安装 popplermake install
可以解决问题,但由于这是出于测试目的,我想避免在我的个人文件夹之外“污染”系统,直到测试完成。
感谢任何会提供帮助的人!
java - 将 PDF 文件转换为单个 HTML 文件
我正在尝试将 PDF 文档转换为 java 中的单个 HTML 文件。大多数在线转换器将一个 PDF 文件转换为多个 HTML 文件。我想将整个 PDF 转换为单个 HTML 文件。
有什么建议么?
c# - 使用 c# 的 PDF 到 XML 的表格格式
如何将仅包含表格的 PDF 文件转换为等效的 XML 格式?