问题标签 [pdf2htmlex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf2htmlex - pdf2htmlEX 文本选择问题
我已经使用 pdf2htmlEX 将 pdf 转换为 html。选择多行时,当光标在两行之间移动时,选择会向上跳转。请有人帮助解决这个问题。
这个问题已经在这里提出了https://github.com/coolwanglu/pdf2htmlEX/issues/62但解决方案没有解决问题。需要帮助来解决这个问题。
python - 在 Python 中将 pdf 转换为 html
蟒蛇2.6
我正在尝试解析我的 pdf 文件,一种方法是将其转换为 html 并提取标题及其段落。所以,我尝试了 pdf2htmlEX 并将我的 pdf 转换为 html 而不会干扰我的 pdf 格式......到目前为止,我很高兴但是当我尝试使用这样的命令访问我的标题时:
但是当我打开我的 html 文件时,它给了我不必要的东西以及我的文本,更重要的是,我的文本没有标题标签,只有一堆 div 和 span。
我什至尝试使用 BeautifulSoup 访问它
它没有给我任何东西,因为没有标签。我也试过 HTMLParser
从 HTMLParser 导入 HTMLParser
但他们都没有满足我的要求。我想要的只是从该 html 文件中提取每个标题及其所需的段落,这要求太多了... :p 我搜索了几乎每个站点并阅读了几乎所有内容,但我所有的努力都徒劳无功。请在这方面指导我...
pdf2htmlex - pdf2htmlEx:pdf转换后的html大小很大?
现在我通过 pdf2htmlEx 将 pdf 转换为 html,
源文件pdf 21MB,转换后的html近900MB,转换命令:
有什么办法可以提高输出 html 的大小吗?
windows - pdf2htmlEX 无法将字体保存到
我在转换一些 pdf 文件时出错,它是:
我正在使用Windows最后一个可执行文件:
我正在测试它并在第 76 页失败,但如果我更改页面顺序,它仍然在第 76 页失败,即使我将其从文件中删除。即使使用命令也会失败: pdf2htmlEx test.pdf
并测试将其拆分为 10 页的文件,例如,它工作正常......但我不能使用它,我需要转换完整的 pdf。
c# - 替换单词,即使它之间有空的 HTML 标记,这会破坏它
所以这是一个相当奇怪的问题,我知道。我使用一个名为 的工具pdf2htmlEX
,它将 PDF 转换为 HTML。到目前为止,结果非常令人印象深刻。在我转换为 HTML 的所有 PDF 中,我还没有看到一个错误。
使用这个 HTML,我需要用 C# 动态替换一些字符串。但是,我不能简单地说line.Replace("#SOME_STRING", "Another string")
,虽然我#SOME_STRING
在导出为 PDF 之前在文档中写了。为什么不呢,你可能会问?因为 的输出pdf2htmlEX
可能看起来像这样:
看到那个带有_
和_5
类的空跨度标签了吗?是的,这使我无法替换我的话。该类_5
只是有一些宽度(如width: 0.9889px
)。
在这种情况下,我将如何#SOME_ST<span class="_ _5"></span>RING
用其他东西代替?
以下是一些案例:
我有点迷路了,因为我无法删除所有_5
元素,因为每次我更改文档中的某些内容时,该类都是随机的。
编辑:所以我基本上需要一种方法来从我自己的键值对中过滤掉 HTML 标记,这样我就可以替换#SOME_STRING -> SOMETHING_ELSE
.
fonts - pdf2htmlEX 的输出仅显示几个字符的 Times New Roman 字体?
我从来没有见过这样的事情。我使用了一个名为 的工具pdf2htmlEX
,它将 PDF 转换为 HTML,但我遇到了一个奇怪的问题。看这个截图:
看到第一个字符 ( W
) 了吗?这是在新罗马时代。现在这是更奇怪的部分:
只有W
and'
在 Times New Roman(2 个字形)中,其余的在 Libration Sans 中。这怎么可能?如何pdf2htmlEX
为每个字符使用不同的字体?
请注意,如果我在其他任何地方写这些字符,它们都是无衬线字体(文档最初是 Verdana,所以这就是原因)。
任何线索为什么会发生这种情况以及我该如何解决?
python - 当我尝试运行 pdf2txt.py 时,pdfminer 无法在 Windows 中运行
我已经安装了 pdfminer,当我尝试运行时
没有错误显示和命令也没有在 Windows 中执行。请帮助我如何将真正的 pdf 文件转换为 html 文件。
谢谢。
php - 使用 php 在 linux 上运行 Pdf2htmlEX
恳请您就以下问题提供帮助:我正在使用 pdf2htmlEX 将我的 pdf 文件转换为 HTML。该工具在 WAMP 中运行良好;但是,当我在我的 Linux 服务器上实现它时,该工具无法正常工作。
我的PHP代码:
请注意,我已经测试了 exec 命令并且它已启用。此外,该目录是可重写的。
我正在从浏览器运行代码
非常感谢您的帮助。
谢谢你,拉沙
poppler - pdf2HtmlEX - html 上的文本与源 pdf 不同
我正在使用 topdf2htmlEX
将 pdf 文件转换为 html。之后我还从文件中提取文本。
问题:
我遇到一个文件,转换后的 html 中的文本不可读: https ://dspace.mit.edu/openaccess-disseminate/1721.1/101159
我使用的命令:
[2]"M."Ha hn,"O."Bar bie ri,"FP."C ampa na,"R."K öt z,"R."G alla y,"A pp l."Ph ys ."A :"M a ter."S ci."Pro ce ss."8 2 "(2 00 6 )"
为 arg 设置其他值--tounicode
会使文本变得乱码。
有一个使用这个库的在线工具,并且在那里生成的 html 很好,这使得它不是 pdf2htmlEX 错误,而是配置或版本问题。可能与 poppler 或 fontforge 有关。
版本:
还尝试使用支持该项目的新存储库并获得相同的结果,请参阅问题: https ://github.com/pdf2htmlEX/pdf2htmlEX/issues/92
据您所知,pdf2htmlEX 使用广泛的字符作为空格,例如 " ' ( ) +。因此,不能全部替换它们。
有什么方法可以使 pdf2htmlEX 不使用这些字符?
ruby-on-rails - 在heroku上安装pdf2htmlEX
我使用了这个 Aptfile:
并且安装成功完成。我什至在 heroku bash 中检查了 pdf2htmlEX 的版本。
但是当我尝试转换真正的 PDF 文档时,我收到了这个错误:
我在其他网站上发现我需要运行“make install”来解决这个问题,但不确定 Heroku 是否可以。
任何帮助将不胜感激。谢谢