问题标签 [pdf2htmlex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
596 浏览

pdf2htmlex - Pdf2htmlEx:html 包含图像,我怎么能用图形代替图像作为输出?

我已经尝试了文档中的每个命令,我怎么能只得到文本部分作为输出,而不是所有的图像?

https://github.com/coolwanglu/pdf2htmlEX/wiki/Command-Line-Options

0 投票
1 回答
2405 浏览

installation - Pdf2Html 安装

我正在尝试在 Ubuntu Server 18.04.1 LTS 上安装 Pdf2HtmlEx 软件。该存储库未维护,但该软件对我非常有用。

我将它安装在 Xubuntu 桌面发行版和 docker 映像上,但我无法在 ubuntu 服务器上执行此操作。

似乎有些新版本的pdf2htmlEx库依赖与上一版本的软件不兼容。

有没有人有同样的问题?有人可以告诉我如何安装吗?

我试过了

官方仓库是pdf2htmlEX

谢谢知道!

0 投票
0 回答
447 浏览

pdf2htmlex - 内部错误:尝试将 65872 输出到 16 位字段中。会被截断

我正在使用pdftohtmlex 将 pdf 文件转换为 htmldom收到此错误:

Internal Error: Attempt to output 65872 into a 16-bit field. It will be truncate and the file may not be useful.

0 投票
1 回答
352 浏览

pdf2htmlex - pdf2htmlEX 常见错误“无法加载字体”

从命令提示符运行 pdf2htmlEX.exe Windows 二进制文件按预期工作。同时,在包装器(在我的情况下为 .Net)中运行 pdf2htmlEX Windows 二进制文件时,我收到如下错误。

0 投票
1 回答
203 浏览

linux - pdf2htmlEX 转换文本但不可见(程序在 linux 上找不到字体文件?)

我正在使用pdf2htmlEX将 pdf 转换为 html,当它在 mac 上本地生成时,输出正确显示,但在 amazon linux 上的生产中生成时却不能正确显示。多个页面都有这个问题,但我将使用此pdf的第 22 页作为具体示例。

对于不正确的 html 输出(在 linux 上生成):

  1. 虽然某些文本在浏览器中呈现时不可见,但在使用 chrome 开发工具检查时,正确的文本在底层 html 中
  2. 这是由元素的 cssvisibility属性(由类名指定ff13)设置为引起的hidden,在正确的转换中它设置为visible
  3. 我可以在css样式计算选项卡下的开发工具中看到rendered fonts正确的字体DejaVu Sans和不正确的字体Helvetica

我检查并确认DejaVuSans.ttf(和其他 DejaVu 字体)安装在 linux 机器上/usr/share/fonts/dejavu/,所以我最好的猜测是由于某种原因pdf2htmlEX程序在进行转换时找不到字体文件,所以它将 cssvisibility属性标记为hidden. 我还尝试安装核心mac(来源此处)和microsoft字体,重新启动机器,然后再试一次,但似乎没有帮助。

有谁知道如何解决这个问题或从这里排除故障?提前感谢您的帮助!

0 投票
1 回答
1154 浏览

python - 将 PDF 转换为 HTML 而不会丢失任何格式

我正在开发一个 Python Flask webapp,我正在尝试将一些用户上传的 pdf 转换为格式良好的 HTML,例如当您在iframe.

到目前为止,我尝试了几件事:

  • pdfminer.six图书馆,产生凌乱的HTML,
  • 试图在使用 pdf.js 渲染 PDF 时获取生成的 HTML,这显然隐藏在Shadow DOM中,无法访问其内部 HTML
  • 最后我遇到了pdf2htmlEXhttps://github.com/pdf2htmlEX/pdf2htmlEX),它产生了我想要的东西。

在本地,这个解决方案效果很好,但是在生产状态(Heroku)我无法正确安装它。该项目已被弃用,文档有限且糟糕。该问题与损坏的依赖关系有关。

那么,如何使用 Python 或任何其他工具有效地将 PDF 转换为 HTML 而不会丢失任何格式?

十分感谢。

如果有人愿意帮助我pdf2htmlEX在 Heroku 上工作,请发表评论,我将在不同的帖子中发布更多详细信息

0 投票
0 回答
125 浏览

debian-jessie - Debian 10 上的 pdf2htmlEX 与 Drupal 一起使用

正在进行服务器迁移,他们正在从 Debian 8 迁移到 Debian 10。除了 pdf2htmlEX 之外,一切都很好。旧服务器使用 v0.14.6,我尝试编译但没有成功。使用 jessie 包会导致依赖问题,并且这些包太旧并且已被替换。

我尝试过 0.18.7 和 0.16.0(所有版本都可以在 GitHub 上找到),到目前为止,0.18.7 似乎是效果最好的版本,尽管有些转换会导致白色或透明文本(在此处提出问题)。

至于0.18.7,需要编译poppler-0.81.0。我使用了本指南,它以 0.89.0 为例。编译没有错误。

有什么我想念的吗?fontforge已经是最新版本了。

很感谢任何形式的帮助。

0 投票
0 回答
32 浏览

java - DOM中节点的背景颜色

您能否让我知道如何获取 DOM 中元素/节点的背景颜色

能够低于输出 style="top:161.80327pt;left:29.21pt;line-height:7.4866333pt;font-family:Arial;font-size:7.0pt;width:48.82689pt;"

使用下面的代码(PDF2DOM)

0 投票
0 回答
16 浏览

node.js - 使用 nodejs 阅读和发布 pdf

我想使用带有nodejs的pdf2html阅读和发布pdf文件。

我为此使用 pdf2html 库。我可以使用 console.log 在 html 中查看 pdf 内容。

但是,当我将看到的 html 信息分配给一个名为 pdfContent 的变量并尝试发布它时,它会给出“未定义”错误。

如何将 pdf2html.html 中的 html 数据分配给变量?

0 投票
0 回答
68 浏览

docker - pdf2htmlEX - 由于编译错误,Docker 镜像构建失败

我正在尝试升级我正在使用的 pdf2htmlEX 版本,并在 docker 映像构建期间遇到各种错误。

这是我的码头文件:

在输出中,我看到多个 docker build 错误,与 poppler 编译有关。

请告知我该如何解决这个问题。