问题标签 [pdfbox]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 用java一次读一页pdf上传流
我正在尝试在 j2ee 应用程序中阅读 pdf 文档。
对于网络应用程序,我必须将 pdf 文档存储在磁盘上。为了方便搜索,我想对文档中的文本进行反向索引;如果是 OCR。
使用 PDFbox 库,可以创建一个包含整个 pdf 文件的 pdfDocument 对象。但是,为了保留内存并提高整体性能,我宁愿将文档作为流处理,并一次将一页读入缓冲区。
我想知道是否可以逐页读取包含pdf的文件流,甚至一次读取一行。
java - 为什么 pdfbox 和 pdfrenderer 都不能支持“附加字体”?
我有一个包含'UniCNS-UCS2-H'字体的pdf,我尝试了pdfbox和pdfrenderer,它们都抛出异常:'UniCNS-UCS2-H'的未知编码
并且这个字体被包含在一个字体文件中:mingliu.ttc(它是一个真正的类型集合文件,我不知道这有关系吗?
我该怎么做才能让这两个库支持其他字体?
c# - 如何使用 PDFBox 从 PDF 表格中获取文本和格式?
我正在使用 PDFBox 从 PDF 文件中使用 C# 解析文本。这很好用,但是当解析器遇到一个表格时,它会解析出文本并破坏格式。
如何解析表格中的文本但保留格式?
pdf - 从 PDF 复制+粘贴文本会导致垃圾
我正在写一篇硕士论文——NLP 系统。我有一个组件 - 提取器。
它正在从 PDF 文件中提取纯文本。有一些 PDF 文件无法正确提取。提取器(PDFBox 库)返回如下字符串:
"┤xDn║if|d├gDF"Ti&cD╬lh d FÁhis~n ╗xd f«"d┤ffih »h"
或者
“10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17”
我正在检查导致此提取问题的每个文件,并且所有这些文件的文本也无法从 PDF 阅读器(Adobe Reader 和 FoxIt 阅读器)复制粘贴。在此阅读器中查看它们已启用,但在选择其内容并复制到剪贴板后,我得到相同的错误文本(如上所述 - 语义不正确的字符字符串或数字和字母字符串)。
有人可以帮我吗???
java - PDFBox设置A5页面大小
开始玩PDFBox
但我想将文件大小设置为 PDPage.PAGE_SIZE_A5。我已经尝试设置所有 setXXXBox(PDRectangle mediaBox) 方法签名,但我无法获得预期的输出。
有任何想法吗?
java - 使用 PDFBox 解析 PDF 文件(尤其是表格)
我需要解析一个包含表格数据的 PDF 文件。我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。问题是文本提取不像我对表格数据的预期那样工作。例如,我有一个文件,其中包含这样的表(7 列:前两列总是有数据,只有一个复杂性列有数据,只有一个财务列有数据):
然后我使用 PDFBox:
这两行数据将像这样提取:
最后两个数字之间没有空格,但这不是最大的问题。问题是我不知道最后两个数字是什么意思:中、高、不适用?MAC/其他,FAE?我没有数字与其列之间的关系。
我不需要使用 PDFBox 库,因此使用另一个库的解决方案很好。我想要的是能够解析文件并知道每个解析的数字意味着什么。
c# - .NET 项目最快的 PDF-> 文本库
我正在尝试创建一个应用程序,它基本上是我的 PDF 收藏的目录。我们谈论的是包含数万个 PDF 的 15-20GB。我还计划包括一个全文搜索机制。我将使用 Lucene.NET 进行搜索(实际上是 NHibernate.Search),以及一个用于 PDF-> 文本转换的库。哪个是最好的选择?我正在考虑这些:
- PDFBox
- pdftotext(来自 xpdf)通过 c# wrapper
- iTextSharp
编辑:其他不错的选择似乎是使用 iFilters。与这些库相比,它们的性能(速度/质量)如何(Foxit/Adobe)?
商业图书馆可能是不可能的,因为它是我的私人项目,而且我真的没有商业解决方案的预算 - 尽管 PDFTextStream 看起来非常好。
从我读过的内容来看, pdftotext比PDFBox 快得多。与 pdftotext 相比,iTextSharp 的性能如何?或者也许有人可以推荐其他好的解决方案?
java - Java - PDFBox - 文本提取
我一直在使用 pdfbox 从 PDF 中提取文本信息。我已经成功解析了文本的所有属性,例如 fontname 、 fontface 、 size 、 position 等。
问题:我正在使用 pdfbox1.2.1(最新版本)。TextPosition 类中的 getCharacter() 返回除最后一个字符之外的完整字符串。最后一个字符被解析为一个单独的字符串。
例如:“How are you”被解析为“How are yo”和“u”(2 个单独的字符串)。
我不希望它以这种方式发生..
有没有人遇到过这个?..我做错了什么吗??..等待回复..
谢谢和问候,玛吉
.net - PDFBox - 使用 IKVM 为 .NET 构建最新版本
我想构建最新版本的 PDFBox ( http://pdfbox.apache.org/userguide/dot_net.html ) 以在我的 .NET 项目中使用。
我对 Java 没有任何经验,但我正在使用此处定义的步骤: http ://www.ikvm.net/userguide/tutorial.html
我正在使用以下版本:
- IKVM (0.42.0.6)
- PDFBox (1.2.1) JAR 文件
问题是当我尝试创建 DLL 时会显示一系列错误消息 - 即“java.lang.NoClassDefFoundError”。我在这里遇到了与作者相同的问题(How to use PDFBox 1.0 in .net / C# environment using IKVM)并尝试了建议的修复 - “lkvmc.exe -target:library -out:”[Output Path]\netpdfbox. dll" "[PDFBox Path]*.jar" 但结果是一样的 - 仍然显示错误消息。
提前致谢,
何塞
java - 如何在java中编辑PDF属性?
我需要从 Java 应用程序编辑现有属性或设置新的 PDF 属性,例如作者姓名、标题、主题等。有没有办法做到这一点?我找到了 apache.pdfbox 库,但我不知道它是否能解决我的问题?