问题标签 [pdf2htmlex]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

35 问题

0 投票

1 回答

348 浏览

pdf2htmlex - pdf2htmlEX 文本选择问题

我已经使用 pdf2htmlEX 将 pdf 转换为 html。选择多行时，当光标在两行之间移动时，选择会向上跳转。请有人帮助解决这个问题。

这个问题已经在这里提出了https://github.com/coolwanglu/pdf2htmlEX/issues/62但解决方案没有解决问题。需要帮助来解决这个问题。

pdf2htmlex

2016-09-22T06:50:30.373

0 投票

1 回答

16108 浏览

python - 在 Python 中将 pdf 转换为 html

蟒蛇2.6

我正在尝试解析我的 pdf 文件，一种方法是将其转换为 html 并提取标题及其段落。所以，我尝试了 pdf2htmlEX 并将我的 pdf 转换为 html 而不会干扰我的 pdf 格式......到目前为止，我很高兴但是当我尝试使用这样的命令访问我的标题时：

但是当我打开我的 html 文件时，它给了我不必要的东西以及我的文本，更重要的是，我的文本没有标题标签，只有一堆 div 和 span。

我什至尝试使用 BeautifulSoup 访问它

它没有给我任何东西，因为没有标签。我也试过 HTMLParser

从 HTMLParser 导入 HTMLParser

但他们都没有满足我的要求。我想要的只是从该 html 文件中提取每个标题及其所需的段落，这要求太多了... :p 我搜索了几乎每个站点并阅读了几乎所有内容，但我所有的努力都徒劳无功。请在这方面指导我...

2016-12-21T13:57:29.470

0 投票

1 回答

787 浏览

pdf2htmlex - pdf2htmlEx：pdf转换后的html大小很大？

现在我通过 pdf2htmlEx 将 pdf 转换为 html，

源文件pdf 21MB，转换后的html近900MB，转换命令：

有什么办法可以提高输出 html 的大小吗？

pdf2htmlex

2017-09-13T06:03:01.903

0 投票

0 回答

331 浏览

windows - pdf2htmlEX 无法将字体保存到

我在转换一些 pdf 文件时出错，它是：

我正在使用Windows最后一个可执行文件：

我正在测试它并在第 76 页失败，但如果我更改页面顺序，它仍然在第 76 页失败，即使我将其从文件中删除。即使使用命令也会失败： pdf2htmlEx test.pdf

并测试将其拆分为 10 页的文件，例如，它工作正常......但我不能使用它，我需要转换完整的 pdf。

windows pdf-generation pdf-to-html pdf2htmlex

2018-01-25T14:35:03.040

0 投票

1 回答

95 浏览

c# - 替换单词，即使它之间有空的 HTML 标记，这会破坏它

所以这是一个相当奇怪的问题，我知道。我使用一个名为的工具pdf2htmlEX，它将 PDF 转换为 HTML。到目前为止，结果非常令人印象深刻。在我转换为 HTML 的所有 PDF 中，我还没有看到一个错误。

使用这个 HTML，我需要用 C# 动态替换一些字符串。但是，我不能简单地说line.Replace("#SOME_STRING", "Another string")，虽然我#SOME_STRING在导出为 PDF 之前在文档中写了。为什么不呢，你可能会问？因为的输出pdf2htmlEX可能看起来像这样：

看到那个带有_和_5类的空跨度标签了吗？是的，这使我无法替换我的话。该类_5只是有一些宽度（如width: 0.9889px）。

在这种情况下，我将如何#SOME_ST<span class="_ _5"></span>RING用其他东西代替？

以下是一些案例：

我有点迷路了，因为我无法删除所有_5元素，因为每次我更改文档中的某些内容时，该类都是随机的。

编辑：所以我基本上需要一种方法来从我自己的键值对中过滤掉 HTML 标记，这样我就可以替换#SOME_STRING -> SOMETHING_ELSE.

c#pdf2htmlex

2018-04-05T10:55:18.643

0 投票

1 回答

88 浏览

fonts - pdf2htmlEX 的输出仅显示几个字符的 Times New Roman 字体？

我从来没有见过这样的事情。我使用了一个名为的工具pdf2htmlEX，它将 PDF 转换为 HTML，但我遇到了一个奇怪的问题。看这个截图：

看到第一个字符 ( W) 了吗？这是在新罗马时代。现在这是更奇怪的部分：

只有Wand'在 Times New Roman（2 个字形）中，其余的在 Libration Sans 中。这怎么可能？如何pdf2htmlEX为每个字符使用不同的字体？

请注意，如果我在其他任何地方写这些字符，它们都是无衬线字体（文档最初是 Verdana，所以这就是原因）。

任何线索为什么会发生这种情况以及我该如何解决？

fonts pdf2htmlex

2018-04-05T11:18:30.360

0 投票

0 回答

877 浏览

python - 当我尝试运行 pdf2txt.py 时，pdfminer 无法在 Windows 中运行

我已经安装了 pdfminer，当我尝试运行时

没有错误显示和命令也没有在 Windows 中执行。请帮助我如何将真正的 pdf 文件转换为 html 文件。

谢谢。

python windows pdf pdfminer pdf2htmlex

2018-04-12T15:10:19.910

0 投票

0 回答

168 浏览

php - 使用 php 在 linux 上运行 Pdf2htmlEX

恳请您就以下问题提供帮助：我正在使用 pdf2htmlEX 将我的 pdf 文件转换为 HTML。该工具在 WAMP 中运行良好；但是，当我在我的 Linux 服务器上实现它时，该工具无法正常工作。

我的PHP代码：

请注意，我已经测试了 exec 命令并且它已启用。此外，该目录是可重写的。

我正在从浏览器运行代码

非常感谢您的帮助。

谢谢你，拉沙

php linux exec pdf2htmlex

2018-05-03T08:02:00.613

0 投票

1 回答

1121 浏览

poppler - pdf2HtmlEX - html 上的文本与源 pdf 不同

我正在使用 topdf2htmlEX将 pdf 文件转换为 html。之后我还从文件中提取文本。

问题：

我遇到一个文件，转换后的 html 中的文本不可读： https ://dspace.mit.edu/openaccess-disseminate/1721.1/101159

我使用的命令：

html 上的文本有很多空格和很多引号 -

[2]"M."Ha hn,"O."Bar bie ri,"FP."C ampa na,"R."K öt z,"R."G alla y,"A pp l."Ph ys ."A :"M a ter."S ci."Pro ce ss."8 2 "(2 00 6 )"

为 arg 设置其他值--tounicode会使文本变得乱码。

有一个使用这个库的在线工具，并且在那里生成的 html 很好，这使得它不是 pdf2htmlEX 错误，而是配置或版本问题。可能与 poppler 或 fontforge 有关。

版本：

还尝试使用支持该项目的新存储库并获得相同的结果，请参阅问题： https ://github.com/pdf2htmlEX/pdf2htmlEX/issues/92

据您所知，pdf2htmlEX 使用广泛的字符作为空格，例如 " ' ( ) +。因此，不能全部替换它们。

有什么方法可以使 pdf2htmlEX 不使用这些字符？

poppler fontforge pdf2htmlex

2018-09-06T07:54:31.570

0 投票

2 回答

438 浏览

ruby-on-rails - 在heroku上安装pdf2htmlEX

我使用了这个 Aptfile：

并且安装成功完成。我什至在 heroku bash 中检查了 pdf2htmlEX 的版本。

但是当我尝试转换真正的 PDF 文档时，我收到了这个错误：

我在其他网站上发现我需要运行“make install”来解决这个问题，但不确定 Heroku 是否可以。

任何帮助将不胜感激。谢谢

ruby-on-rails heroku pdf2htmlex

2018-10-15T18:39:32.043

1 2 3 4 5 6 7 8 9 10

问题标签 [pdf2htmlex]

蟒蛇2.6

Reference