“pdfbox”的相关标签问题_Stack Overflow中文网

0 投票

4 回答

4846 浏览

java - 用java一次读一页pdf上传流

我正在尝试在 j2ee 应用程序中阅读 pdf 文档。

对于网络应用程序，我必须将 pdf 文档存储在磁盘上。为了方便搜索，我想对文档中的文本进行反向索引；如果是 OCR。

使用 PDFbox 库，可以创建一个包含整个 pdf 文件的 pdfDocument 对象。但是，为了保留内存并提高整体性能，我宁愿将文档作为流处理，并一次将一页读入缓冲区。

我想知道是否可以逐页读取包含pdf的文件流，甚至一次读取一行。

2009-02-25T14:49:08.223

0 投票

1 回答

2463 浏览

java - 为什么 pdfbox 和 pdfrenderer 都不能支持“附加字体”？

我有一个包含'UniCNS-UCS2-H'字体的pdf，我尝试了pdfbox和pdfrenderer，它们都抛出异常：'UniCNS-UCS2-H'的未知编码

并且这个字体被包含在一个字体文件中：mingliu.ttc（它是一个真正的类型集合文件，我不知道这有关系吗？

我该怎么做才能让这两个库支持其他字体？

java fonts pdfbox pdfrenderer

2010-03-30T07:37:21.060

0 投票

0 回答

954 浏览

c# - 如何使用 PDFBox 从 PDF 表格中获取文本和格式？

可能重复：
使用 PDFBox 解析 PDF 文件（尤其是表格）

我正在使用 PDFBox 从 PDF 文件中使用 C# 解析文本。这很好用，但是当解析器遇到一个表格时，它会解析出文本并破坏格式。

如何解析表格中的文本但保留格式？

c#pdfbox

2010-04-09T17:02:31.247

0 投票

7 回答

46543 浏览

pdf - 从 PDF 复制+粘贴文本会导致垃圾

我正在写一篇硕士论文——NLP 系统。我有一个组件 - 提取器。

它正在从 PDF 文件中提取纯文本。有一些 PDF 文件无法正确提取。提取器（PDFBox 库）返回如下字符串：

"┤xDn║if|d├gDF"Ti&cD╬lh d FÁhis~n ╗xd f«"d┤ffih »h"

或者

“10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17”

我正在检查导致此提取问题的每个文件，并且所有这些文件的文本也无法从 PDF 阅读器（Adobe Reader 和 FoxIt 阅读器）复制粘贴。在此阅读器中查看它们已启用，但在选择其内容并复制到剪贴板后，我得到相同的错误文本（如上所述 - 语义不正确的字符字符串或数字和字母字符串）。

有人可以帮我吗？？？

pdf pdfbox

2010-05-28T01:36:40.200

0 投票

2 回答

21757 浏览

java - PDFBox设置A5页面大小

开始玩PDFBox

但我想将文件大小设置为 PDPage.PAGE_SIZE_A5。我已经尝试设置所有 setXXXBox(PDRectangle mediaBox) 方法签名，但我无法获得预期的输出。

有任何想法吗？

java pdf apache-fop pdfbox

2010-06-28T16:46:28.800

0 投票

19 回答

115641 浏览

java - 使用 PDFBox 解析 PDF 文件（尤其是表格）

我需要解析一个包含表格数据的 PDF 文件。我正在使用PDFBox提取文件文本以稍后解析结果（字符串）。问题是文本提取不像我对表格数据的预期那样工作。例如，我有一个文件，其中包含这样的表（7 列：前两列总是有数据，只有一个复杂性列有数据，只有一个财务列有数据）：

然后我使用 PDFBox：

这两行数据将像这样提取：

最后两个数字之间没有空格，但这不是最大的问题。问题是我不知道最后两个数字是什么意思：中、高、不适用？MAC/其他，FAE？我没有数字与其列之间的关系。

我不需要使用 PDFBox 库，因此使用另一个库的解决方案很好。我想要的是能够解析文件并知道每个解析的数字意味着什么。

java parsing pdf pdfbox tabular

2010-07-08T12:59:20.763

0 投票

3 回答

2807 浏览

c# - .NET 项目最快的 PDF-> 文本库

我正在尝试创建一个应用程序，它基本上是我的 PDF 收藏的目录。我们谈论的是包含数万个 PDF 的 15-20GB。我还计划包括一个全文搜索机制。我将使用 Lucene.NET 进行搜索（实际上是 NHibernate.Search），以及一个用于 PDF-> 文本转换的库。哪个是最好的选择？我正在考虑这些：

PDFBox
pdftotext（来自 xpdf）通过 c# wrapper
iTextSharp

编辑：其他不错的选择似乎是使用 iFilters。与这些库相比，它们的性能（速度/质量）如何（Foxit/Adobe）？

商业图书馆可能是不可能的，因为它是我的私人项目，而且我真的没有商业解决方案的预算 - 尽管 PDFTextStream 看起来非常好。

从我读过的内容来看， pdftotext比PDFBox 快得多。与 pdftotext 相比，iTextSharp 的性能如何？或者也许有人可以推荐其他好的解决方案？

c#pdf itextsharp pdfbox xpdf

2010-07-22T10:29:13.060

0 投票

2 回答

2501 浏览

java - Java - PDFBox - 文本提取

我一直在使用 pdfbox 从 PDF 中提取文本信息。我已经成功解析了文本的所有属性，例如 fontname 、 fontface 、 size 、 position 等。

问题：我正在使用 pdfbox1.2.1（最新版本）。TextPosition 类中的 getCharacter() 返回除最后一个字符之外的完整字符串。最后一个字符被解析为一个单独的字符串。

例如：“How are you”被解析为“How are yo”和“u”（2 个单独的字符串）。

我不希望它以这种方式发生..

有没有人遇到过这个？..我做错了什么吗？？..等待回复..

谢谢和问候，玛吉

java pdfbox

2010-07-28T14:15:54.000

0 投票

2 回答

4251 浏览

.net - PDFBox - 使用 IKVM 为 .NET 构建最新版本

我想构建最新版本的 PDFBox ( http://pdfbox.apache.org/userguide/dot_net.html ) 以在我的 .NET 项目中使用。

我对 Java 没有任何经验，但我正在使用此处定义的步骤： http ://www.ikvm.net/userguide/tutorial.html

我正在使用以下版本：
- IKVM (0.42.0.6)
- PDFBox (1.2.1) JAR 文件

问题是当我尝试创建 DLL 时会显示一系列错误消息 - 即“java.lang.NoClassDefFoundError”。我在这里遇到了与作者相同的问题（How to use PDFBox 1.0 in .net / C# environment using IKVM）并尝试了建议的修复 - “lkvmc.exe -target:library -out:”[Output Path]\netpdfbox. dll" "[PDFBox Path]*.jar" 但结果是一样的 - 仍然显示错误消息。

提前致谢，

何塞

.net ikvm pdfbox

2010-08-11T17:11:57.550

0 投票

1 回答

6173 浏览

java - 如何在java中编辑PDF属性？

我需要从 Java 应用程序编辑现有属性或设置新的 PDF 属性，例如作者姓名、标题、主题等。有没有办法做到这一点？我找到了 apache.pdfbox 库，但我不知道它是否能解决我的问题？

java pdf pdfbox

2010-08-16T06:26:01.160

问题标签 [pdfbox]

Reference