问题标签 [pdf2htmlex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
278 浏览

cmake - 尽管安装了最新版本的clang,cmake抱怨编译器缺乏对C++0x的支持

我正在尝试使用 cmake 构建pdf2htmlEX

这是错误消息:

这是clang编译器的版本号

经过快速测试,我意识到clang不支持-std=c++0x. 我删除了clang并安装了g++。以下是相关版本信息:

我运行了一个非常简单的测试,似乎 g++ 可以接受c++0x参数

我在 Ubuntu 14.04.1 LTS 上运行 cmake

制作

它的版本是cmake version 2.8.12.2

以下是相关代码 CMakeLists.txt

我是 cmake 的新手,所以不知道如何确定check_cxx_compiler_flagcmake

0 投票
1 回答
1210 浏览

html - 使用 pdf2htmlEX 将 pdf 拆分为多个 html 文件

我正在尝试将 PDF 文件拆分为单独的 HTML 文件。我的意思是对于每个 PDF 页面,我都需要一个 HTML 文件。我就是这样做的:

结果我得到了一个空LMS.html文件和其他文件:lms%031.html, lms%032.html. 问题是那些html文件格式不正确,没有CSS样式?

0 投票
0 回答
1020 浏览

javascript - 从 PDF 文件中提取所有内容(不仅是文本,还包括表格/图表)?

我想重新格式化 PDF 的主要内容,所以我需要提取其主要内容,不仅是文本,还包括表格、图表等及其布局信息。我只对内容的主要部分感兴趣,例如,对于技术论文,我只对文本、表格和图表的列感兴趣。页眉、页脚和页边空白处的文本可以忽略。

就像从 PDF 页面扫描内容流,识别它们是否是文本段落或其他。如果它们是文本段落,我可能会对其进行某种格式处理。如果它们是其他类似表格、图表或任何不像段落的东西,我会保持原样,或者只是缩小或放大以适应新的显示。

例如,以下流,我会收集文本,并记下文本相对于页面的起点:

继续分解流内容以组织在具有相对位置信息的文档元素数组中,无论它们是段落(以便能够重新格式化相关文本。)

我想即使只是分解一个流并判断它们是否是文本段落并记下它的相对位置也可能不是微不足道的。

我发现 pdf.js 的 page.render() 可能有机会帮助我实现目标,但我还没有弄清楚它是如何适应的。

pdf2htmlEx 也可能具有类似的机制,因为它可以将 PDF 文件转换为 html。

但不确定上述工具在什么级别进行渲染/转换,如果它们直接将它们作为图像进行,那么它们可能无助于我的目的。

Adobe的Android PDF查看器提供了在手机小屏幕上重新排列PDF内容的功能。它可能会使用一些我想要的完整内容捕获和转换机制。

所以我的问题是指针如何实现我的要求?

非常感谢

0 投票
2 回答
351 浏览

pdf - 从pdf获取文本位置

我想知道pdf页面中所有单词的位置。我一直试图在网上找到一些东西,但找不到。谁能帮助我应该使用哪个库(最好在 java 平台中)?

0 投票
2 回答
708 浏览

ruby-on-rails - 在 Heroku 上运行 pdf2htmlEX

我正在尝试在 Heroku 上运行pdf2htmlEX。起初我想在与 Heroku 具有相同堆栈的 VM 上编译 pdf2htmlEX,然后将二进制文件包含在 git repo 中。那没有用(我一直遇到依赖问题)。

由于没有pdf2htmlEX专门运行的 heroku buildpack,我决定尝试将heroku-buildpack-multiheroku buildpack-aptheroku-buildpack-ruby一起使用(buildpack-apt 在编译和运行时都添加了对基于 apt 的依赖项的支持)。pdf2htmlEX 包不在主 PPA 中(它在 ppa:coolwanglu/pdf2htmlex 中)我不能只将 pdf2htmlEX 添加到(这是您指定 apt 依赖项的地方)。Aptfile

我最终得到了 pdf2htmlEX 的依赖项:

考虑到这一点,我使我的 Aptfile 如下:

问题是,如果我在一次性测功机中收到 bash 提示并尝试运行 pdf2htmlEX,我会收到以下错误:

我在 stackoverflow 上找到的关于这个特定错误的几篇文章并不是特别有用。这似乎与它有关,libstdc++6但我不知道如何解决它。

有任何想法吗?另外,如果您知道在 heroku 上运行 pdf2htmlEX 的更简单方法,请告诉我。

0 投票
0 回答
71 浏览

pdf2htmlex - 使用 pdf2htmlEx 工具时如何获取附在 pdf 文档上的便签?

使用选项--process-annotation 1查看 pdf 文档中的注释

这适用于

  • 强调
  • 强调
  • 删除线
  • 长方形盒子

而不是为了

  • 便笺中添加的注释- 转换后的 html 仅包含注释图标 - 缺少添加到注释图标的文本/注释。

我遗漏了什么吗?或者这是一个问题?有人好心帮我解决这个问题。

0 投票
0 回答
1766 浏览

node.js - 从pdf中提取数据

请不要标记为重复。我已经浏览过许多 Stackoverflow 链接,但它们并没有解决我的问题。

我正在尝试做的事情:我必须从大约 1,50,000 个 pdf 文件中提取数据。

一个示例 pdf :所有这些 pdf 在结构上都是相同的,并且包含表格格式的数据(无图像)。pdf 的快照如下所示。

在此处输入图像描述

我所做的:我使用pdf2htmlEX终端命令Nodejs将 pdf 文件转换为 html。

转换后的 html 文件如下所示:类名 x 后跟一个字符和 y 后跟一个字符的组合对于特定 div 是唯一的。例如。只有一个 divxfy10class。

在此处输入图像描述

我被困在哪里:虽然所有的 pdf 在格式和结构上都是相同的,但生成的 html 文件却不是。因此,可以说$(".x14.y30").text()可能会在 pdf - 1 中给我一些东西,它会在 pdf - 2 中给我其他东西。我还寻找了一些方法,可以在将 pdf 文件转换为 html 时修改类的分配方式. 但一切都是徒劳的。然后需要以制表符分隔的格式存储提取的数据。

使用这种方法不是强制性的。欢迎任何更好的建议。

0 投票
1 回答
756 浏览

html - 使用 pdf2htmlEx 工具将 pdf 转换为 html 期间字体未对齐

PDF 到 HTML 转换的字体问题

  1. 缺少所有“ti”、“fi”、“tt”字符

示例屏幕截图

  1. 字体重叠问题

示例屏幕截图

  • 注意:我没有遇到 Firefox 的这个问题。在 Safari 浏览器中的 chrome 中获取上述问题

我在用

  • 使用0.13.6版本的pdf2htmlEX
  • 使用以下命令将pdf转换为html

pdf2htmlEX --split-pages 1 --zoom 3 --fit-width 920 --correct-text-visibility 1 --dest-dir $1 $2 2>&1

尝试过

使用--fallback 1选项可以解决我上述所有问题。但

  1. 后备选项降低了文档的清晰度。
  2. 页面中的表格消失,而被空白空间取代。

怀疑

  1. 你能解释一下关于后备的更多信息吗?

  2. 我已经尝试过上述一个(使用后备)。如果您更喜欢用不同的方法来解决上述字体问题,请建议我。

使用 chrome 和 safari 解决上述问题,而在 Firefox 中它运行良好。

0 投票
2 回答
1684 浏览

docker - pdf2htmlEX 无法打开或读取文件

我安装了 docker 并通过它运行 pdf2htmlEX

这是我的路径和 pdf 包含在里面:

运行以下命令时:

和 test.pdf 之前的完整路径的其他组合我继续无法读取文件错误。

我不确定权限是否是一个原因,但是在检查用户权限时它具有读写权限:

关于为什么找不到或无法读取那里的 pdf 文件的任何想法?我正在尝试将其转换为 .html

0 投票
1 回答
457 浏览

html - 使用 pdf2htmlEX 转换多个文件

如何在多个文件或包含 pdf 文件的文件夹上使用 pdf2htmlEX?

我能够很好地转换单个文件,但我显然不想为 100 个文件运行 100 次命令。

我在文档中找不到任何内容,并且“*.pdf”之类的内容不起作用。

谢谢!