问题标签 [pdfbox]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
4846 浏览

java - 用java一次读一页pdf上传流

我正在尝试在 j2ee 应用程序中阅读 pdf 文档。

对于网络应用程序,我必须将 pdf 文档存储在磁盘上。为了方便搜索,我想对文档中的文本进行反向索引;如果是 OCR。

使用 PDFbox 库,可以创建一个包含整个 pdf 文件的 pdfDocument 对象。但是,为了保留内存并提高整体性能,我宁愿将文档作为流处理,并一次将一页读入缓冲区。

我想知道是否可以逐页读取包含pdf的文件流,甚至一次读取一行。

0 投票
1 回答
2463 浏览

java - 为什么 pdfbox 和 pdfrenderer 都不能支持“附加字体”?

我有一个包含'UniCNS-UCS2-H'字体的pdf,我尝试了pdfbox和pdfrenderer,它们都抛出异常:'UniCNS-UCS2-H'的未知编码

并且这个字体被包含在一个字体文件中:mingliu.ttc(它是一个真正的类型集合文件,我不知道这有关系吗?

我该怎么做才能让这两个库支持其他字体?

0 投票
0 回答
954 浏览

c# - 如何使用 PDFBox 从 PDF 表格中获取文本和格式?

可能重复:
使用 PDFBox 解析 PDF 文件(尤其是表格)

我正在使用 PDFBox 从 PDF 文件中使用 C# 解析文本。这很好用,但是当解析器遇到一个表格时,它会解析出文本并破坏格式。

如何解析表格中的文本但保留格式?

0 投票
7 回答
46543 浏览

pdf - 从 PDF 复制+粘贴文本会导致垃圾

我正在写一篇硕士论文——NLP 系统。我有一个组件 - 提取器。

它正在从 PDF 文件中提取纯文本。有一些 PDF 文件无法正确提取。提取器(PDFBox 库)返回如下字符串:

"┤xDn║if|d├gDF"Ti&cD╬lh d FÁhis~n ╗xd f«"d┤ffih »h"

或者

“10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17”

我正在检查导致此提取问题的每个文件,并且所有这些文件的文本也无法从 PDF 阅读器(Adobe Reader 和 FoxIt 阅读器)复制粘贴。在此阅读器中查看它们已启用,但在选择其内容并复制到剪贴板后,我得到相同的错误文本(如上所述 - 语义不正确的字符字符串或数字和字母字符串)。

有人可以帮我吗???

0 投票
2 回答
21757 浏览

java - PDFBox设置A5页面大小

开始玩PDFBox

但我想将文件大小设置为 PDPage.PAGE_SIZE_A5。我已经尝试设置所有 setXXXBox(PDRectangle mediaBox) 方法签名,但我无法获得预期的输出。

有任何想法吗?

0 投票
19 回答
115641 浏览

java - 使用 PDFBox 解析 PDF 文件(尤其是表格)

我需要解析一个包含表格数据的 PDF 文件。我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。问题是文本提取不像我对表格数据的预期那样工作。例如,我有一个文件,其中包含这样的表(7 列:前两列总是有数据,只有一个复杂性列有数据,只有一个财务列有数据):

然后我使用 PDFBox:

这两行数据将像这样提取:

最后两个数字之间没有空格,但这不是最大的问题。问题是我不知道最后两个数字是什么意思:中、高、不适用?MAC/其他,FAE?我没有数字与其列之间的关系。

我不需要使用 PDFBox 库,因此使用另一个库的解决方案很好。我想要的是能够解析文件并知道每个解析的数字意味着什么。

0 投票
3 回答
2807 浏览

c# - .NET 项目最快的 PDF-> 文本库

我正在尝试创建一个应用程序,它基本上是我的 PDF 收藏的目录。我们谈论的是包含数万个 PDF 的 15-20GB。我还计划包括一个全文搜索机制。我将使用 Lucene.NET 进行搜索(实际上是 NHibernate.Search),以及一个用于 PDF-> 文本转换的库。哪个是最好的选择?我正在考虑这些:

  • PDFBox
  • pdftotext(来自 xpdf)通过 c# wrapper
  • iTextSharp

编辑:其他不错的选择似乎是使用 iFilters。与这些库相比,它们的性能(速度/质量)如何(Foxit/Adobe)?

商业图书馆可能是不可能的,因为它是我的私人项目,而且我真的没有商业解决方案的预算 - 尽管 PDFTextStream 看起来非常好。

从我读过的内容来看, pdftotextPDFBox 快得多。与 pdftotext 相比,iTextSharp 的性能如何?或者也许有人可以推荐其他好的解决方案?

0 投票
2 回答
2501 浏览

java - Java - PDFBox - 文本提取

我一直在使用 pdfbox 从 PDF 中提取文本信息。我已经成功解析了文本的所有属性,例如 fontname 、 fontface 、 size 、 position 等。

问题:我正在使用 pdfbox1.2.1(最新版本)。TextPosition 类中的 getCharacter() 返回除最后一个字符之外的完整字符串。最后一个字符被解析为一个单独的字符串。

例如:“How are you”被解析为“How are yo”和“u”(2 个单独的字符串)。

我不希望它以这种方式发生..

有没有人遇到过这个?..我做错了什么吗??..等待回复..

谢谢和问候,玛吉

0 投票
2 回答
4251 浏览

.net - PDFBox - 使用 IKVM 为 .NET 构建最新版本

我想构建最新版本的 PDFBox ( http://pdfbox.apache.org/userguide/dot_net.html ) 以在我的 .NET 项目中使用。

我对 Java 没有任何经验,但我正在使用此处定义的步骤: http ://www.ikvm.net/userguide/tutorial.html

我正在使用以下版本:
- IKVM (0.42.0.6)
- PDFBox (1.2.1) JAR 文件

问题是当我尝试创建 DLL 时会显示一系列错误消息 - 即“java.lang.NoClassDefFoundError”。我在这里遇到了与作者相同的问题(How to use PDFBox 1.0 in .net / C# environment using IKVM)并尝试了建议的修复 - “lkvmc.exe -target:library -out:”[Output Path]\netpdfbox. dll" "[PDFBox Path]*.jar" 但结果是一样的 - 仍然显示错误消息。

提前致谢,

何塞

0 投票
1 回答
6173 浏览

java - 如何在java中编辑PDF属性?

我需要从 Java 应用程序编辑现有属性或设置新的 PDF 属性,例如作者姓名、标题、主题等。有没有办法做到这一点?我找到了 apache.pdfbox 库,但我不知道它是否能解决我的问题?