问题标签 [pdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
10 回答
96396 浏览

testing - 比较大量 PDF 文件的工具?

我需要比较大量 PDF 文件的光学内容。由于 PDF 文件是在不同平台上创建的,并且使用不同版本的软件,因此存在结构差异。例如:

  • 文本的分块可以不同
  • 写入顺序可以不同
  • 位置可以不同一些像素

它应该像人一样比较内容,而不是内部结构。我想测试我们使用的不同版本的 PDF 生成器之间的回归。

0 投票
16 回答
40111 浏览

http - “名称” web pdf 以在 Acrobat 中获得更好的默认保存文件名?

我的应用程序生成 PDF 供用户使用。“Content-Disposition”http 标头的设置如此所述。这设置为“inline; filename=foo.pdf”,这足以让 Acrobat 在保存 pdf 时将“foo.pdf”作为文件名。

但是,单击嵌入浏览器的 Acrobat 中的“保存”按钮后,要保存的默认名称不是该文件名,而是带有斜杠的 URL 更改为下划线。又大又丑。有没有办法影响 Adob​​e 中的这个默认文件名?

URL 中有一个查询字符串,这是不可协商的。这可能很重要,但在 URL 末尾添加“&foo=/title.pdf”不会影响默认文件名。

更新2:我都试过了

(通过 Firebug 验证)遗憾的是,两者都不起作用。

示例网址是

转换为默认的 Acrobat 保存为文件名

更新 3:Julian Reschke 为这个案例带来了真正的洞察力和严谨性。请点赞他的回答。这似乎在 FF ( https://bugzilla.mozilla.org/show_bug.cgi?id=433613 ) 和 IE 中被破坏,但在 Opera、Safari 和 Chrome 中有效。http://greenbytes.de/tech/tc2231/#inlwithasciifilenamepdf

0 投票
2 回答
2700 浏览

c# - 重新排序 PDF 页面顺序

是否可以以编程方式重新排序已经生成的 PDF 文件,并使用尽可能少的资源,因为这需要每月在大约 8000 个 PDF 上运行?

我们目前正在使用 iTextSharp 将 PDF 合并到更大的 PDF 中,但 iTextsharp 的文档并没有真正解释太多。

0 投票
5 回答
8013 浏览

perl - Perl 最好的 XSLT 引擎是什么?

我想知道有哪些 XSLT 引擎可以很好地与 Perl 配合使用。

我将使用 Apache (2.0) 和 Perl,并且我想获得 PDF 和 XHTML。

我是这类项目的新手,因此欢迎提出任何意见或建议。

谢谢。


在谷歌上做一个简单的搜索,我发现了很多,我想还有更多。

欢迎对您的经历发表任何评论。

0 投票
10 回答
59441 浏览

pdf - Programmatically recognize text from scans in a PDF File

I have a PDF file, which contains data that we need to import into a database. The files seem to be pdf scans of printed alphanumeric text. Looks like 10 pt. Times New Roman.

Are there any tools or components that can will allow me to recognize and parse this text?

0 投票
8 回答
51304 浏览

asp.net - 在 ASP.NET 中将 MS Word 文档转换为 PDF

已经提出了类似的问题,但与我的完全不同,所以就这样吧。

我们在 ASP.NET Web 服务器上有一组 Microsoft Word 文档,其中包含合并字段,其值是作为用户表单提交的结果而填写的。字段合并后,服务器必须将文档转换为 PDF 并将其流式传输到浏览器。我们的第一个想法是使用 Visual Studio Tools for Office API;但是,我们遇到了来自 Microsoft 的警告

Microsoft 目前不推荐也不支持任何无人值守、非交互式客户端应用程序或组件(包括 ASP、ASP.NET、DCOM 和 NT 服务)的 Microsoft Office 应用程序自动化,因为 Office 可能表现出不稳定的行为和/或在此环境中运行 Office 时出现死锁。

看起来可以使用Open XML SDK完成字段操作,但是在不打开 Word 的情况下将 Word 2007 文档转换为 PDF 的最佳方法是什么?最佳解决方案应该是低成本、可扩展、内存占用少、易于部署并具有 .NET API。

0 投票
10 回答
37933 浏览

vb.net - 以编程方式打印到 pdf 打印机

我正在尝试在 Visual Basic 2008 中以编程方式将现有文件打印为 PDF。

我们当前的相关资产有: Visual Studio 2008 Professional Adob​​e Acrobat Professional 8.0

我考虑过获得像 ITextSharp 这样的 sdk,但对于我正在尝试做的事情来说,这似乎有点矫枉过正,尤其是因为我们拥有完整版的 Adob​​e。

是否有一段相对简单的代码可以打印到 PDF 打印机(当然也可以指定它打印到特定位置),还是需要使用另一个库才能打印到 pdf?


我想将以前创建的文档打印到 pdf 文件中。在这种情况下,它是一个 .snp 文件,我想将它制作成一个 .pdf 文件,但我认为任何文件类型的逻辑都是相同的。


我刚刚尝试了上面的 shell 执行,它不会按照我想要的方式执行。因为它提示我要打印的位置,但仍然没有打印到我想要​​的位置(多个位置),这至关重要,因为我们创建了许多相同命名的 PDF 文件(PDF 中有不同的数据并放置在对应的客户文件夹)


目前的流程是:

  • 转到 \\report server\client1
  • 手动创建文件夹中所有snp文档的pdf文件
  • 将 pdf 复制到 \\website reports\client1
  • 然后对所有 100 多个客户重复此操作大约需要两个小时才能完成和验证

我知道这可以做得更好,但我才来这里三个月,还有其他更紧迫的问题。我也没想到看起来如此微不足道的东西却难以编码。

0 投票
2 回答
5814 浏览

pdf - 使用 iText API 为 PDF 文件中的所有书签创建目的地

我想编写一些(java)代码来获取 PDF 文档,并从所有书签中创建命名目的地。我认为 iText API 是最简单的方法,但我以前从未使用过该 API。

您将如何使用 iText API 编写此类代码?iText 可以自己进行操作现有 PDF 所需的解析吗?我正在考虑的那种操作是:

  • 打开,
  • 查找书签,
  • 创建目的地,
  • 节省,
  • 关闭。

还是有其他更好的 API?

0 投票
4 回答
14161 浏览

php - 如何使用 Zend 框架生成 pdf 文件_with_ utf-8 多字节字符

Zend Framework Zend_Pdf 类有一个“小”问题。从生成的 pdf 文件中去除多字节字符。例如,当我写 aąbcčdeę 时,它变成 abcd 并去掉了立陶宛字母。

我不确定它是特别是 Zend_Pdf 问题还是一般的 php。

源文本以 utf-8 编码,以及完成这项工作的 php 源文件。

预先感谢您的帮助 ;)

PS 我运行 Zend Framework v. 1.6 并使用 FONT_TIMES_BOLD 字体。FONT_TIMES_ROMAN 确实有效

0 投票
3 回答
9828 浏览

.net - ABCpdf 时不时会耗尽内存

我正在进行的项目是使用第 3 方组件在名为 ABCpdf.Net 的 VB.Net 网络系统中构建动态 PDF。(不是一个糟糕的工具,但也不是一个伟大的工具。)

有时,由于我无法理解的原因,文档对象会抛出 SEHException。进一步挖掘,事实证明这是由 WebSupergoo.ABCpdf6.Internal.PDFException 类型的文档对象中的自定义异常引起的。内容仅包含不太有用的标题“无法获取图像数据。内存不足”通常在尝试将图像添加到 PDF 时发生。由于这些图像是小于 100k 的 PNG,我猜它们的大小不是问题。

此外,真正奇怪的是,一旦这个问题开始发生,让它停止的唯一方法似乎是重新启动 Web 服务器,这显然有点低于标准。

有没有人遇到过这个问题(甚至使用过这个工具?)