问题标签 [ghostscript]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
8 回答
310296 浏览

pdf - 如何从 PDF 中提取嵌入字体作为有效字体文件?

我知道该pdftk.exe实用程序可以指示 PDF 使用哪些字体,以及它们是否嵌入。

现在的问题是:鉴于我有嵌入字体的 PDF 文件——我如何提取这些字体以使其可作为常规字体文件重复使用?是否有(最好是免费的)工具可以做到这一点?另外:这可以通过iText以编程方式完成吗?

0 投票
2 回答
2432 浏览

pdf - Ghostscript 在 pdf 中渲染嵌入字体效果不佳(所有锯齿状)

Ghostscript 无法正确呈现 pdf 中的嵌入字体。例如http://vegro.nl/cmsfiles/ConsumentenAssortiment/Brochure/10.axd 右上角的标志字符('Thermrad')都是锯齿状的。如果我在 Adob​​e Reader 中打开文件,完全没有问题!

你也有这个问题吗?有什么解决办法吗?我已经搜索了好几天,但我找不到任何东西。

我在 Windows Vista 和 CentOS 上都尝试了 Ghostscript 8.64 和 8.71。

0 投票
2 回答
2107 浏览

pdf - RMagick 将 ps 转换为 pdf

当我将 PS 文件转换为 PDF 时,它在本地计算机上运行良好,但在生产服务器上,它会为页面添加边距,就好像我从 Mac OSX 预览打印设置中选择了 Scale to Fit 而不是 Scale: 100% . 我该如何防止这种情况?目前,我正在做:

更新:我解决了这个问题!请看下面我的回答。

0 投票
1 回答
306 浏览

pdf - PDF 字体无法正确显示

我正在使用 ghostscript 8.63 将 pdf 文档拆分为单独的页面。问题是拆分后的 pdf 文档中的某些 pdf 字体重叠(黑色补丁)。观察到 verdana-bold 字体文本。

我将 gostscript 所需的所有字体复制到 -sFontPath 目录,并且 ghostscript 还打开了 verdana、verdana-bold 字体文件,但在拆分文件中字体不正确。

0 投票
3 回答
6640 浏览

linux - 运行 ImageMagick 将低质量 pdf 转换为图像(用于 OCR)的最佳参数是什么

我有几个低质量的pdf。我想使用 OCR——更准确地说是Ocropus 从他们那里获取文本。为了使用,我首先使用ImageMagick—— 一个将 pdf 转换为图像的命令行工具——将这些 pdf 转换为 jpg 或 png。

然而 ImageMagick 产生的图像质量非常低,而 Ocropus 几乎无法识别任何东西。我想了解处理低质量 pdf 以向 OCR 提供尽可能高质量的图像的最佳参数是什么。

我找到了这个页面,但我不知道从哪里开始。

0 投票
1 回答
2951 浏览

pdf - Ghostscript没有从PDF文件中提取所有文本

我正在使用 ghostscript 8.71 从 PDF 页面中提取文本。

我正在使用的命令是:

我正在使用<stdout>将文本定向到另一个文件。

但问题是 Ghostscript 无法提取一些可搜索的文本项。

某些字体文本未提取,例如:粗体字 Verdana。但是 Ghostscript 正在打开字体文件。

我可以上传 PDF 文件,但在这里我没有找到任何上传选项。如果有任何选项可用,请告诉我。

0 投票
4 回答
5551 浏览

postscript - 如何确定 PostScript 中的字符串高度?

我需要在 postscript 中确定字符串的高度(以给定的比例和字体)。

将在 (10,10) 水平(但尚未垂直)居中打印测试。(为了看到这一点,我还在 10,10 处显示了一个小圆圈)。我还需要确定字符串高度以使文本垂直居中,但我找不到它的函数。

0 投票
2 回答
8138 浏览

pdf - How can you find a problem with a programmatically generated PDF?

My group has been using the itext-sharp library and C#/.NET to generate custom, dynamic PDFs. For the most part, this process is working great for our needs. The one problem we can run into during development/testing is layout issues which can cause the PDF to not open/render correctly in Adobe Reader, esp. the newer versions of Acrobat/Reader.

The document will open the display correctly for the first X pages. But if there is an error, the remaining pages in the document will not display.

As mentioned, we are usually able to track this problem down to a layout-type issue with our C#/iText code. We eventually find the error by using the guess and check method, or divide and conquer. It works, but it doesn't feel like the best way to solve these problems.

I was wondering if there are any tools available that could speed up the process of validating a PDF document and could help to point out errors in the document?

0 投票
1 回答
4597 浏览

linux - Linux 上的 PDF:组合字体子集并将 Type 3 替换为 Type 1

我有一个 PDF 文件,我想在 Linux 上进行后期处理。我特别想:

  • 用 Type 1 字体替换 Type 3 字体
  • 用单个子集替换同一字体的多个子集(子集是在 LaTeX 中包含图形的结果,其中每个图形都包含一个子集的字体)

在 Windows 中,使用 Adob​​e Distiller 可以实现这两个步骤(打开文档文件并使用相应的设置将其打印到新的 PDF 文档中)。

在 Linux 上,我可以使用 Ghostscript [1]对字体进行子集化,但它似乎无法用 Type 1 字体替换(全部?)Type 3 字体或组合相同字体的多个子集。

关于如何使用免费工具完成这两项任务的任何提示?

(我知道对How to convert Type 3 font to Type 1 font in PDF的回复。但是,我真的不在乎我是否在理论上丢失了有关字体的信息,因为这个对话似乎在 Distiller 中运行良好)。


[1] 论据:

0 投票
15 回答
283008 浏览

pdf - 如何从PDF中提取文本?

任何人都可以推荐一个库/API 来从 PDF 中提取文本和图像吗?我们需要能够获取文档预先知道的区域中包含的文本,因此 API 需要为我们提供页面上每个元素的位置信息。

我们希望以xmljson格式输出该数据。我们目前正在研究PdfTextStream,它看起来不错,但想听听其他人的经验和建议。

是否有替代方案(商业或免费)以编程方式从 pdf 中提取文本?