问题标签 [pdf2htmlex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
348 浏览

pdf2htmlex - pdf2htmlEX 文本选择问题

我已经使用 pdf2htmlEX 将 pdf 转换为 html。选择多行时,当光标在两行之间移动时,选择会向上跳转。请有人帮助解决这个问题。

在此处输入图像描述

在此处输入图像描述

这个问题已经在这里提出了https://github.com/coolwanglu/pdf2htmlEX/issues/62但解决方案没有解决问题。需要帮助来解决这个问题。

0 投票
1 回答
16108 浏览

python - 在 Python 中将 pdf 转换为 html

蟒蛇2.6

我正在尝试解析我的 pdf 文件,一种方法是将其转换为 html 并提取标题及其段落。所以,我尝试了 pdf2htmlEX 并将我的 pdf 转换为 html 而不会干扰我的 pdf 格式......到目前为止,我很高兴但是当我尝试使用这样的命令访问我的标题时:

但是当我打开我的 html 文件时,它给了我不必要的东西以及我的文本,更重要的是,我的文本没有标题标签,只有一堆 div 和 span。

我什至尝试使用 BeautifulSoup 访问它

它没有给我任何东西,因为没有标签。我也试过 HTMLParser

从 HTMLParser 导入 HTMLParser

但他们都没有满足我的要求。我想要的只是从该 html 文件中提取每个标题及其所需的段落,这要求太多了... :p 我搜索了几乎每个站点并阅读了几乎所有内容,但我所有的努力都徒劳无功。请在这方面指导我...

0 投票
1 回答
787 浏览

pdf2htmlex - pdf2htmlEx:pdf转换后的html大小很大?

现在我通过 pdf2htmlEx 将 pdf 转换为 html,

源文件pdf 21MB,转换后的html近900MB,转换命令:

有什么办法可以提高输出 html 的大小吗?

0 投票
0 回答
331 浏览

windows - pdf2htmlEX 无法将字体保存到

我在转换一些 pdf 文件时出错,它是:

我正在使用Windows最后一个可执行文件:

我正在测试它并在第 76 页失败,但如果我更改页面顺序,它仍然在第 76 页失败,即使我将其从文件中删除。即使使用命令也会失败: pdf2htmlEx test.pdf

并测试将其拆分为 10 页的文件,例如,它工作正常......但我不能使用它,我需要转换完整的 pdf。

0 投票
1 回答
95 浏览

c# - 替换单词,即使它之间有空的 HTML 标记,这会破坏它

所以这是一个相当奇怪的问题,我知道。我使用一个名为 的工具pdf2htmlEX,它将 PDF 转换为 HTML。到目前为止,结果非常令人印象深刻。在我转换为 HTML 的所有 PDF 中,我还没有看到一个错误。

使用这个 HTML,我需要用 C# 动态替换一些字符串。但是,我不能简单地说line.Replace("#SOME_STRING", "Another string"),虽然我#SOME_STRING在导出为 PDF 之前在文档中写了。为什么不呢,你可能会问?因为 的输出pdf2htmlEX可能看起来像这样:

看到那个带有__5类的空跨度标签了吗?是的,这使我无法替换我的话。该类_5只是有一些宽度(如width: 0.9889px)。

在这种情况下,我将如何#SOME_ST<span class="_ _5"></span>RING用其他东西代替?

以下是一些案例:

我有点迷路了,因为我无法删除所有_5元素,因为每次我更改文档中的某些内容时,该类都是随机的。

编辑:所以我基本上需要一种方法来从我自己的键值对中过滤掉 HTML 标记,这样我就可以替换#SOME_STRING -> SOMETHING_ELSE.

0 投票
1 回答
88 浏览

fonts - pdf2htmlEX 的输出仅显示几个字符的 Times New Roman 字体?

我从来没有见过这样的事情。我使用了一个名为 的工具pdf2htmlEX,它将 PDF 转换为 HTML,但我遇到了一个奇怪的问题。看这个截图:

看到第一个字符 ( W) 了吗?这是在新罗马时代。现在这是更奇怪的部分:

只有Wand'在 Times New Roman(2 个字形)中,其余的在 Libration Sans 中。这怎么可能?如何pdf2htmlEX为每个字符使用不同的字体?

请注意,如果我在其他任何地方写这些字符,它们都是无衬线字体(文档最初是 Verdana,所以这就是原因)。

任何线索为什么会发生这种情况以及我该如何解决?

0 投票
0 回答
877 浏览

python - 当我尝试运行 pdf2txt.py 时,pdfminer 无法在 Windows 中运行

我已经安装了 pdfminer,当我尝试运行时

没有错误显示和命令也没有在 Windows 中执行。请帮助我如何将真正的 pdf 文件转换为 html 文件。

谢谢。

0 投票
0 回答
168 浏览

php - 使用 php 在 linux 上运行 Pdf2htmlEX

恳请您就以下问题提供帮助:我正在使用 pdf2htmlEX 将我的 pdf 文件转换为 HTML。该工具在 WAMP 中运行良好;但是,当我在我的 Linux 服务器上实现它时,该工具无法正常工作。

我的PHP代码:

请注意,我已经测试了 exec 命令并且它已启用。此外,该目录是可重写的。

我正在从浏览器运行代码

非常感谢您的帮助。

谢谢你,拉沙

0 投票
1 回答
1121 浏览

poppler - pdf2HtmlEX - html 上的文本与源 pdf 不同

我正在使用 topdf2htmlEX将 pdf 文件转换为 html。之后我还从文件中提取文本。

问题:

我遇到一个文件,转换后的 html 中的文本不可读: https ://dspace.mit.edu/openaccess-disseminate/1721.1/101159

我使用的命令:

html 上的文本有很多空格和很多引号 - 在此处输入图像描述

[2]"M."Ha hn,"O."Bar bie ri,"FP."C ampa na,"R."K öt z,"R."G alla y,"A pp l."Ph ys ."A :"M a ter."S ci."Pro ce ss."8 2 "(2 00 6 )"

为 arg 设置其他值--tounicode会使文本变得乱码。

有一个使用这个库的在线工具,并且在那里生成的 html 很好,这使得它不是 pdf2htmlEX 错误,而是配置或版本问题。可能与 poppler 或 fontforge 有关。

版本:

还尝试使用支持该项目的新存储库并获得相同的结果,请参阅问题: https ://github.com/pdf2htmlEX/pdf2htmlEX/issues/92

据您所知,pdf2htmlEX 使用广泛的字符作为空格,例如 " ' ( ) +。因此,不能全部替换它们。

有什么方法可以使 pdf2htmlEX 不使用这些字符?

0 投票
2 回答
438 浏览

ruby-on-rails - 在heroku上安装pdf2htmlEX

我使用了这个 Aptfile:

并且安装成功完成。我什至在 heroku bash 中检查了 pdf2htmlEX 的版本。

但是当我尝试转换真正的 PDF 文档时,我收到了这个错误:

我在其他网站上发现我需要运行“make install”来解决这个问题,但不确定 Heroku 是否可以。

任何帮助将不胜感激。谢谢