问题标签 [pdf-to-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
5123 浏览

asp.net - 在 ASP.NET 中,将 PDF 文件转换为 HTML 的最佳方法是什么?

我的用户要做的是在他们的机器上选择一个 PDF 文档,将其上传到我的网站,在那里我将转换为 HTML 文档以在网站上显示。该文件将在转换后存储在数据库中。

将 PDF 转换为 HTML 的最佳方法是什么?

我收到了一个要求,用户将创建一个 pdf 格式的“新闻”故事,然后将其上传到服务器,在那里它将转换为 HTML 并显示在网站上。

0 投票
4 回答
29053 浏览

php - 将 PDF 转换为 HTML

将要在浏览器中查看的 PDF 文档转换为 HTML 的最佳解决方案是什么?该站点有几个 PDF 文档,访问者可以单击以 HTML 格式查看,这应该在屏幕上以 HTML 文件的形式查看。

运行 PHP、Linux、Apache 的标准网站。

0 投票
1 回答
267 浏览

pdf-to-html - 如何将pdf文档转换为html文件?

应该保持格式,看起来几乎和原来的一样。

0 投票
9 回答
15791 浏览

html - 什么是用于 Ruby on Rails 的好的 PDF 到 HTML 转换器?

我正在尝试以编程方式将 PDF 转换为 HTML。到目前为止,我一直在使用pdftohtml,但我们的用户对结果并不满意。

这是我需要的:

  • 我正在使用 Ruby on Rails,但任何在 Unix 上工作的工具都可以工作,因为我可以从命令行调用它。当然,一个不错的 gem 或插件将是完美的。

  • 我希望它是开源的

  • 它需要能够处理图像

  • 如果需要时可以选择丢弃图像,那就太好了

  • 它需要稳定

  • 它需要返回布局接近原始 pdf 的 html(我尝试过pdftohtml,但在很多情况下结果都不是很好)

0 投票
1 回答
3496 浏览

c# - 使用 c# 将 pdf 转换为 html/xml

我想使用 c#将 pdf 转换为 html ...任何人都可以提供任何想法..

0 投票
1 回答
1435 浏览

pdftotext - pdftohtml 的替代品

我正在尝试使用 pdftohtml,但我发现它有时难以正确解析表格。它将两列中的文本分组到一个单元格中,这使我尝试解析结果数据是徒劳的!

请注意,这仅在 PDF 中发生一次或两次,并且非常不可预测。

我已经尝试过最新版本的 pdftohtml(包括 0.40a 测试版),但无济于事。

有人知道任何可能值得尝试的与 Linux 兼容的等价物吗?

谢谢,

山姆

0 投票
2 回答
1243 浏览

php - 多页PDF的基于Javascript的水平滚动?

我想知道如何使用 JavaScript 完成 PDF 页面的水平滚动。是否更好:

  1. 将 PDF 的页面转换为 HTML 文件,然后在 src="...each page.html"?
  2. 将 PDF 的页面转换为 iframe 之外的其他 HTML 元素(例如,DIV?),然后在包含每个页面内容的元素之间单击左右。

我想确保 PDF 的文本是可搜索的,所以我不想把它的页面变成图像。我也对使用 iframe 持怀疑态度,因为在单个网页中拥有多个 iframe 会带来格式挑战。在使用“PDFtoHTML”基于 linux 的软件将 PDF 转换为 HTML 之后,我已经测试了这种方法,发现通常这是一个次优的解决方案。

似乎选项 2 是要走的路,但不知道如何以编程方式将 PDF 解析为多个 DIV。除了 JavaScript,我熟悉 PHP 和 Linux,但不熟悉其他语言,如果这有助于思考解决方案的话。

0 投票
1 回答
13456 浏览

php - PHP shell_exec,执行-rwxrwxrwx shell脚本的权限被拒绝

我目前在运行 Apache 网络服务器的远程 CentOS 5.6 系统上通过 ssh。我需要使用 popplerpdftohtml二进制文件,不幸的是,该二进制文件当前未安装在该机器上。所以我下载了 poppler 包并将其构建在我的用户文件夹下。由于我不是系统管理员,所以我没有这样做

我有我所有的编译文件

我需要通过php执行的文件shell_exec()

如果我通过我的 ssh bash 执行它,我会得到正确的输出。相反,如果我将此行放在 php 脚本上:

我得到以下输出:

我尝试将文件权限设置为 777,目前是 -rwxrwxrwx。我还注意到shell_exec("whoami");在“apache”中使用结果。如果文件权限是-rwxrwxrwx,apache不应该能够执行脚本吗?

我也知道通过安装 popplermake install可以解决问题,但由于这是出于测试目的,我想避免在我的个人文件夹之外“污染”系统,直到测试完成。

感谢任何会提供帮助的人!

0 投票
3 回答
3404 浏览

java - 将 PDF 文件转换为单个 HTML 文件

我正在尝试将 PDF 文档转换为 java 中的单个 HTML 文件。大多数在线转换器将一个 PDF 文件转换为多个 HTML 文件。我想将整个 PDF 转换为单个 HTML 文件。

有什么建议么?

0 投票
1 回答
1072 浏览

c# - 使用 c# 的 PDF 到 XML 的表格格式

如何将仅包含表格的 PDF 文件转换为等效的 XML 格式?