问题标签 [pdf-to-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 pymupdf 在 Pdf 中用图像名称替换图像
使用 PyMuPDF,我想从 pdf 中提取所有图像并单独保存它们,并将 pdf 中的所有图像替换为相同图像位置的图像名称并保存为另一个文档。我可以使用以下代码保存所有图像。
但不确定如何将它们全部替换为 pdf 中存储的图像名称。如果有人可以在这里帮助我,将不胜感激。
python - 我正在尝试使用 pdfminer 在 python 中将数据提取为 HTML 元素
我正在尝试使用 pdfminer 从 pdf 中将数据提取为 HTML,尽管我成功地从同一个 pdf 中提取文本现在我在将数据提取为 HTML 时遇到错误,我必须进一步过滤数据以将其分类为 CSV。这是脚本。
这是我得到的错误。 点击这里
python - 如何在转换为 html 时为特定的数据框列添加背景颜色
需要用不同的颜色为列着色。使用下面的代码,但也不能用直线在邮件中获取数据。To html 方法可以正常工作以生成表格,但需要对 Dataframe 中的所有列进行差异颜色。
还有一个是
python - Pandas dataframe.to_html() - 编辑文本颜色并添加标题列的背景颜色
我正在将 pandas 数据框导出为 html 表,并且一直在玩弄最终表中标题列的样式。这是我生成的示例数据框:
我已经能够使用以下代码编辑标题文本颜色:
我还能够使用以下代码单独更改背景颜色:
虽然我已经能够分别更改列标题文本颜色和背景颜色,但我无法同时更改两者。有没有更好的方法来实现这一点,以便我能够同时更改文本颜色和背景颜色,而不是在仅更改一个或另一个之间进行选择?谢谢!
c# - System.InvalidOperationException:“必须在调用“PrepareDocumentRenderer”之前设置“DocumentRenderer”。
我正在尝试使用 pdfsharp 和 migradoc 将 html 代码转换为 pdf。我对土耳其语字符使用 RenderDocument() 函数。但是在 RenderDocument() 函数之后,我得到了这个错误。System.InvalidOperationException:''DocumentRenderer'必须在调用'PrepareDocumentRenderer'之前设置。'
我通过查看此链接中的示例编写了下面的代码。 http://www.pdfsharp.net/wiki/HelloMigraDoc-sample.ashx
python - PDFminer - 有没有办法从 pdfminer 将 pdf 转换为 html?
是使用 pdfminer 将 pdf 转换为 html 的简单方法吗?我见过很多这样的问题,但他们不会给我正确的答案......
我在我的 ConEmu 提示符中输入了这个:
我希望这不是我应该从 pdf2txt.py 得到的回应。
有没有可以工作的代码片段?我试过这个:
但它没有给我任何 html 文件或任何输出
和另一个代码:
它给出了这个:
信息:
pdf - 使用 puppeteer 生成 pdf 时减小 PDF 的大小
我们使用 IDR 将 PDF 文档转换为 HTML。
在做了一些修改之后,我们使用 puppeteer 将该文档转换回 PDF,我得到的文件页面大小增加了(即使我没有对我的 HTML 进行任何修改)。
例如:-如果原始页面大小为 500kb,我将得到一个 1000kb 的页面
该页面仅包含一些文本。
请帮助我了解这背后的原因以及如何解决这个问题。
python-3.x - 将 pdftohtml 的输出写入标准输出
我想为 pdf 文件运行pdftohtml并将其输出写入 /dev/stdout 或允许我直接从subprocess
.
我的代码:
上面的代码以代码 -11 退出。
我在 WSL 2 中使用 Ubuntu 18.04 运行它。
我尝试在 bash 中执行相同的命令:
也不能将“-”传递给标准输出值。
我该怎么做才能直接从 html 输出subprocess.run
?
我知道可以通过管道将cat
文件名输出到命令,但这不是我想要的。
该解决方案必须与 WSL2 和 python 拉伸 docker 映像兼容。但是,任何澄清都会有所帮助:)
html - PDF 到 HTML 转换器 - 卡住
我的网站和 HTML 文件只需要一个 pdf 文件。我不需要在我的网站上制作它们,我只需将一个 pdf 添加到页面并在其上放置文本。有谁知道将pdf转换为HTML的最佳方法。我找到了像云转换器这样的地方,但它在页面上添加了很多其他的东西,文本不可能通过所有的 css 和 javascript 过滤来找到将文本放在上面而不覆盖它或出现奇怪特征的方法。我只需要相对于自身和页面上的文本在 html 中进行格式化。这甚至是正确的方法。谢谢!
linux - 为 pdftohtml 选择编码
如何强制 pdftohtml 输出为 UTF 8?
而且-listenc
似乎不是一个有效的选择。
我认为它默认使用 ISO-8859-1 (尽管出于某种原因,即使:set enc?
报告,VIM 也能很好地读取文件和特殊字符utf-8
)