问题标签 [pdf-to-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
914 浏览

python - 使用 pymupdf 在 Pdf 中用图像名称替换图像

使用 PyMuPDF,我想从 pdf 中提取所有图像并单独保存它们,并将 pdf 中的所有图像替换为相同图像位置的图像名称并保存为另一个文档。我可以使用以下代码保存所有图像。

但不确定如何将它们全部替换为 pdf 中存储的图像名称。如果有人可以在这里帮助我,将不胜感激。

0 投票
1 回答
729 浏览

python - 我正在尝试使用 pdfminer 在 python 中将数据提取为 HTML 元素

我正在尝试使用 pdfminer 从 pdf 中将数据提取为 HTML,尽管我成功地从同一个 pdf 中提取文本现在我在将数据提取为 HTML 时遇到错误,我必须进一步过滤数据以将其分类为 CSV。这是脚本。

这是我得到的错误。 点击这里

0 投票
1 回答
67 浏览

python - 如何在转换为 html 时为特定的数据框列添加背景颜色

需要用不同的颜色为列着色。使用下面的代码,但也不能用直线在邮件中获取数据。To html 方法可以正常工作以生成表格,但需要对 Dataframe 中的所有列进行差异颜色。

还有一个是

0 投票
1 回答
600 浏览

python - Pandas dataframe.to_html() - 编辑文本颜色并添加标题列的背景颜色

我正在将 pandas 数据框导出为 html 表,并且一直在玩弄最终表中标题列的样式。这是我生成的示例数据框:

我已经能够使用以下代码编辑标题文本颜色:

我还能够使用以下代码单独更改背景颜色:

虽然我已经能够分别更改列标题文本颜色和背景颜色,但我无法同时更改两者。有没有更好的方法来实现这一点,以便我能够同时更改文本颜色和背景颜色,而不是在仅更改一个或另一个之间进行选择?谢谢!

0 投票
1 回答
118 浏览

c# - System.InvalidOperationException:“必须在调用“PrepareDocumentRenderer”之前设置“DocumentRenderer”。

我正在尝试使用 pdfsharp 和 migradoc 将 html 代码转换为 pdf。我对土耳其语字符使用 RenderDocument() 函数。但是在 RenderDocument() 函数之后,我得到了这个错误。System.InvalidOperationException:''DocumentRenderer'必须在调用'PrepareDocumentRenderer'之前设置。'

我通过查看此链接中的示例编写了下面的代码。 http://www.pdfsharp.net/wiki/HelloMigraDoc-sample.ashx

0 投票
3 回答
3242 浏览

python - PDFminer - 有没有办法从 pdfminer 将 pdf 转换为 html?

是使用 pdfminer 将 pdf 转换为 html 的简单方法吗?我见过很多这样的问题,但他们不会给我正确的答案......

我在我的 ConEmu 提示符中输入了这个:

我希望这不是我应该从 pdf2txt.py 得到的回应。

有没有可以工作的代码片段?我试过这个:

但它没有给我任何 html 文件或任何输出

和另一个代码:

它给出了这个:

信息:

0 投票
0 回答
169 浏览

pdf - 使用 puppeteer 生成 pdf 时减小 PDF 的大小

我们使用 IDR 将 PDF 文档转换为 HTML。

在做了一些修改之后,我们使用 puppeteer 将该文档转换回 PDF,我得到的文件页面大小增加了(即使我没有对我的 HTML 进行任何修改)。

例如:-如果原始页面大小为 500kb,我将得到一个 1000kb 的页面

该页面仅包含一些文本。

请帮助我了解这背后的原因以及如何解决这个问题。

0 投票
1 回答
102 浏览

python-3.x - 将 pdftohtml 的输出写入标准输出

我想为 pdf 文件运行pdftohtml并将其输出写入 /dev/stdout 或允许我直接从subprocess.

我的代码:

上面的代码以代码 -11 退出。

我在 WSL 2 中使用 Ubuntu 18.04 运行它。

我尝试在 bash 中执行相同的命令:

也不能将“-”传递给标准输出值。

我该怎么做才能直接从 html 输出subprocess.run

我知道可以通过管道将cat文件名输出到命令,但这不是我想要的。

该解决方案必须与 WSL2 和 python 拉伸 docker 映像兼容。但是,任何澄清都会有所帮助:)

0 投票
0 回答
50 浏览

html - PDF 到 HTML 转换器 - 卡住

我的网站和 HTML 文件只需要一个 pdf 文件。我不需要在我的网站上制作它们,我只需将一个 pdf 添加到页面并在其上放置文本。有谁知道将pdf转换为HTML的最佳方法。我找到了像云转换器这样的地方,但它在页面上添加了很多其他的东西,文本不可能通过所有的 css 和 javascript 过滤来找到将文本放在上面而不覆盖它或出现奇怪特征的方法。我只需要相对于自身和页面上的文本在 html 中进行格式化。这甚至是正确的方法。谢谢!

0 投票
1 回答
71 浏览

linux - 为 pdftohtml 选择编码

如何强制 pdftohtml 输出为 UTF 8?

而且-listenc似乎不是一个有效的选择。

我认为它默认使用 ISO-8859-1 (尽管出于某种原因,即使:set enc?报告,VIM 也能很好地读取文件和特殊字符utf-8