问题标签 [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1278 浏览

pdf - 计算 PDF 文件中的页数

我知道有几个工具/库可以做到这一点,但我想知道这是否可以通过将文件作为文本文件打开并查找关键字来实现。

0 投票
1 回答
1456 浏览

java - 是否有可以从给定坐标中提取文本的 PDF 解析库?

早安,伙计们。我被分配了一项任务,我应该根据给定的字段和部分规范从 PDF 文件(银行发票)中提取文本。此规范在 YAML 文件中给出。字段表示为一组两个坐标 - 文本所在矩形的左上角和右下角,以及字段的名称。我正在使用 SnakeYAML 将此信息加载到对象中。到目前为止,我一直很成功。对于下一部分,我必须使用这些数据从 PDF 中提取文本,嗯……我有点卡在这里。一方面,我还无法决定使用什么 PDF 解析库。您能否向我推荐一个适合我的任务的 PDF 解析库,我应该如何完成上述任务?谢谢!

0 投票
1 回答
1047 浏览

java - pdf使用java解析为文本

我有从pdf文件中提取阿拉伯文本的同样问题,如果得到解决方案,任何人都可以帮忙吗???我用pdfbox尝试了很多次,但没有结果。

0 投票
1 回答
1576 浏览

pdf - 从 pdf (UTF-8) 中正确提取文本

我想从一些 pdf 文件中提取文本(以编程方式,使用一些实用程序,甚至使用复制/粘贴),但有些字符出来真的很奇怪。虽然我在提取文本时指定了 UTF-8 编码,但像“ș、ț、ă”等字符看起来像“„˛”而不是“s、t、a”(或至少显示的字符)。文本显示正确,但是当我尝试复制它时,这些字符不正确。
是否有某种方法可以正确提取文本,或者这些 pdf 文件是否以某种方式损坏(java/C/python 等或 windows/linux/etc 实用程序)?

0 投票
4 回答
11096 浏览

java - iText - 获取文本段的字体大小和系列

我目前正在尝试从 PDF 文件中自动提取重要的关键字。我能够从 PDF 文档中获取文本信息。但现在我需要知道,这些关键字有哪些字体大小和字体系列。

我已经拥有以下代码:

主要的

我已经实现了 TextExtraction Strategy SemTextExtractionStrategy,如下所示:

我可以获取 FontType,但没有获取字体大小的方法。还有其他方法或如何获取当前文本段的字体大小?

Or are there any other libraries which can fetch out the font size from TextSegments? I already had a look into PDFBox, and PDFTextStream. The PDF Shareware Library from Aspose would perfectly do the job. But it's very expensive and I need to use an open source project.

0 投票
2 回答
113 浏览

export-to-csv - 获取退伍军人事务医院数据库友好列表的最佳方法

如果这不是讨论这个问题的适当论坛,我真诚地道歉,但我不确定去哪里或什么是最好的选择。

基本上,我试图找到一个数据库友好的退伍军人医院列表。我能找到的最接近的东西是 www.va.gov/ofcadmin/docs/CATB.pdf,因为它包含我正在寻找的所有信息:

  • 地区
  • 地址
  • 单独列中的城市
  • 邮政编码在单独的列中
  • 状态
  • 设施编号(也称为 StationID)
  • VISN
  • 象征

我已经尝试将该 PDF 导出为 CSV,但开始工作是一场彻头彻尾的噩梦。所以,我很好奇是否有人对我如何完成这项任务有任何想法或见解。

0 投票
1 回答
347 浏览

ios - iOS从pdf获取文本

您好,我正在开发一个速读应用程序,我正在寻找一些提示或建议。在这个应用程序中,我必须使用不同的阅读技术,这需要从 pdf 中格式化不同大小的文本。用于无图片自动滚动的技术。有人已经知道谁来做这件事了吗?或者有我的例子?

0 投票
1 回答
301 浏览

vba - 使用 vba 从 powerpoint 导出 pdf 文件

我希望能够使用 vba 导出我在 powerpoint 演示文稿中插入的 PDF 文件。

我知道您可以在 pptx 文件中添加 .zip 扩展名(只需修改文件名),然后检查演示文稿的内容。我可以导出视频,因为视频以相同的格式存储,但在这种情况下,pdf 文件以 .bin 扩展名存储,我无法对这种类型的文件执行任何操作。即使我将扩展名更改为 .pdf adobe reader 也无法阅读。

0 投票
0 回答
1304 浏览

pdf - 即使我在代码中选择复选框,pdfbox 也不显示

我正在使用 PDFbox java api 来填写 PDF 中的值。

我可以填写文本框值。当我对复选框使用 check() 方法时,如图所示如何使用 Java PDFBOX api 检查 PDF 表单中的复选框时, 它在后台将值设置为 true,但这在我打开 pdf 时没有反映出来。

复选框仍为空白,没有任何值。

有谁知道如何解决这个问题?

0 投票
1 回答
403 浏览

perl - Perl 错误 - 不能在未定义的值上调用“getPageContent”?

嗨,我试图提取 pdf 文件的内容,但我面临上述问题,我的代码是

我在这里收到错误“getPageContent(1)”。我的代码出了什么问题