问题标签 [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
14019 浏览

r - 使用 R 识别 PDF 表格

我正在尝试从一些 pdf 报告中的表格中提取数据。

我已经看到一些使用 pdftools 和类似软件包的示例,我成功地获取了文本,但是,我只想提取表格。

有没有办法使用 R 来识别和提取表?

0 投票
1 回答
24 浏览

python - 准xml提取2个开始标签之间的文本

我从pdf中抓取了一些数据。它的数据几乎像 XML,看起来像这样 "(1) Data-field-1 (3) Data-field-3 (5) Data-field-5; (1) Data-field-1 (2) Data-field-2 (3) Data-field-3 (5) Data-field-5; ; (2) Data-field-2 (3) Data-field-3 (5) Data-field-5 (6) Data-field-6;"

因此,对于每个条目,数据字段都以 (x) 开头。通常,条目以分号 (;) 结尾,但数据字段中通常有分号,因此我不能将其用作分隔符。新记录开始的唯一指标是开始标签中的整数小于之前的整数。标签是从 1 到 6。我想尝试获取字典字典,因此看起来类似于 JSON,例如

{'Row1':{1 : 'Data-field-1', 3 : 'Data-field-3', 5 : 'Data-field-5'},'Row2': {1: 'Data-field-1', 2: 'Data-field-2', 3: 'Data-field-3' 5: 'Data-field-5'},Row3': { 2: 'Data-field-2' ,3: 'Data-field-3' ,5: 'Data-field-5',6: 'Data-field-6'},ETC

尝试在 python 中使用正则表达式来做到这一点,这是我匹配匹配的最后一段代码:

但是由于数据字段中的额外分号而导致回溯错误(列表索引超出范围)关于如何做得更好的任何想法?

0 投票
0 回答
272 浏览

pdf - 从pdf副本中提取手写信息

我正在对一组记录进行编目。将纸质记录转换为 PDF,然后再转换为文本并不是什么大问题。我面临的主要问题与表格中的手写条目有关。

pdfs 都是手写表格的副本。提取某些区域似乎不是问题(例如,在盒子中手写 X),但其他区域似乎更难。虽然如果其他人有这样做的有效方法,请告诉我。

有没有办法将手写转换为 Unicode 然后提取它?

0 投票
1 回答
115 浏览

python - 如何从pdf中提取对应的列数据

pdf包含逐行分隔的数据,并且一行后有一个表格,其中包含标题及其下方的相应值,我无法有序地获取它,而是我一个接一个地获取完整的列标题作为文本。我能够获取数据,逐行显示,以关联标题及其相应的值,但我无法为表格做同样的事情。

0 投票
2 回答
334 浏览

python - 从 PDF 中提取表格

我有一个包含文本、图像和表格的 pdf 文件。我想使用 Python 或 R 从该 pdf 文件中提取表格。

0 投票
1 回答
814 浏览

windows - 是否可以使用命令行自动运行 PDFelement

我目前正在尝试将一些带有表格的 PDF 解析为 csv/excel 等格式,以便我可以使用 python 等以编程方式处理它们。

我发现 PDFElement 在将 PDF 转换为 excel 方面做得很好,但只是通过 GUI 手动进行转换。

我希望能够使用程序自动化将 PDF 批量转换为 excel 的过程,并且想知道是否有人对如何最好地实现这一点有任何想法。

我最初的直觉是尝试使用一些参数从命令提示符运行程序 .exe。但是,根据他们的支持页面,似乎不支持此功能。 有没有解决的办法?还是我应该求助于某种自动点击脚本?谢谢!

0 投票
1 回答
546 浏览

python - Python PDF 文本提取 - 无法使用 pdfminer/textract 从特定文档中提取

我正在使用 Python 做一个项目,该项目涉及从许多 PDF 文档中提取文本,有趣的是,我遇到了一个无法被这些项目中的任何一个解析的文档:

https://github.com/euske/pdfminer/

https://github.com/deanmalmgren/textract

事实上,即使是命令行工具pdftotext也无法从文档中提取文本。它首先打印文本,然后在提取大约 2 分钟后继续打印垃圾。

该文件可在此处找到:https ://www.aiaa.org/uploadedFiles/Events/Conferences/2013_Conferences/2013_-_GNC_Infotech/Promotional_Materials/GNC%202013%20Final%20Program.pdf

我对以下两种解决方案之一感兴趣:

  1. 我怎样才能实现在 Python 中从该文档中提取文本的目标?
  2. 一般来说,我怎样才能检测到这样的文档,所以我可以避免尝试完全解析它们?

这些解决方案中的任何一个都是理想的,所以提前致谢!

0 投票
1 回答
1361 浏览

python - 将数据从 pdf 表中提取为结构化格式

我想以任何结构化格式(如 html、xml、json)抓取 pdf 表数据。我正在使用 python 。我首先使用pdftotext命令行功能将 pdf 转换为文本。但我无法区分pdf中表格的数据。

pdf图片如下图所示:

在此处输入图像描述

0 投票
0 回答
14 浏览

pdf - PDF 文档存储关于项目符号列表的哪些信息?

我正在尝试从 PDF 文档中提取文本。我想知道 PDF 如何处理项目符号段落。考虑这个例子:

在此处输入图像描述

PDF 是否保留任何逻辑元信息,即上面显示的 2 块文本是项目符号列表系统的成员,还是只留给人类大脑来解释项目符号?这些信息对我开发我目前正在使用的文本挖掘工具非常有帮助。

谢谢,

0 投票
1 回答
1873 浏览

web-scraping - 使用文本模块进行 PDF 抓取

我有一个 Node.js 应用程序,它必须对在线 pdf 进行一些网络抓取。这是一段代码:

如您所见,我使用textrack包来抓取pdf。当我运行这个应用程序时,我得到:

npm textract 模块页面中,写着PDF 提取需要安装 pdftotext,链接

所以我去http://www.foolabs.com/xpdf/download.html并下载并安装了Download XpdfReader: Windows 64-bit

我再次尝试使用node app.jsapp.js是我的应用程序的主文件)运行应用程序,但我得到了同样的错误,所以我下载了 Download the Xpdf tools: Windows 64-bit

这是一个 zip 文件,我解压缩该文件,然后尝试安装pdftotext.exe,但是当我双击 时pdftotext.exe,会发生任何事情。我也尝试使用管理员权限安装它。没有。

我正在使用 Windows 10、64 位。

我必须做什么?


编辑 1

pdftotext.exe按照建议,我将文件复制到C:\Windows\System32. 然后我再次运行我的程序,我遇到了这个问题:

我必须更改环境变量吗?


编辑 2

C:\myUserName\projectPath\file.js的是这样的: