问题标签 [pdf-scraping]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

137 问题

0 投票

2 回答

14019 浏览

r - 使用 R 识别 PDF 表格

我正在尝试从一些 pdf 报告中的表格中提取数据。

我已经看到一些使用 pdftools 和类似软件包的示例，我成功地获取了文本，但是，我只想提取表格。

有没有办法使用 R 来识别和提取表？

r text-mining pdf-scraping

2017-05-23T17:15:23.477

0 投票

1 回答

24 浏览

python - 准xml提取2个开始标签之间的文本

我从pdf中抓取了一些数据。它的数据几乎像 XML，看起来像这样 "(1) Data-field-1 (3) Data-field-3 (5) Data-field-5; (1) Data-field-1 (2) Data-field-2 (3) Data-field-3 (5) Data-field-5; ; (2) Data-field-2 (3) Data-field-3 (5) Data-field-5 (6) Data-field-6;"等

因此，对于每个条目，数据字段都以 (x) 开头。通常，条目以分号 (;) 结尾，但数据字段中通常有分号，因此我不能将其用作分隔符。新记录开始的唯一指标是开始标签中的整数小于之前的整数。标签是从 1 到 6。我想尝试获取字典字典，因此看起来类似于 JSON，例如

{'Row1':{1 : 'Data-field-1', 3 : 'Data-field-3', 5 : 'Data-field-5'},'Row2': {1: 'Data-field-1', 2: 'Data-field-2', 3: 'Data-field-3' 5: 'Data-field-5'},Row3': { 2: 'Data-field-2' ,3: 'Data-field-3' ,5: 'Data-field-5',6: 'Data-field-6'}，ETC

尝试在 python 中使用正则表达式来做到这一点，这是我匹配匹配的最后一段代码：

但是由于数据字段中的额外分号而导致回溯错误（列表索引超出范围）关于如何做得更好的任何想法？

python regex pdf-scraping

2017-08-08T07:44:33.403

0 投票

0 回答

272 浏览

pdf - 从pdf副本中提取手写信息

我正在对一组记录进行编目。将纸质记录转换为 PDF，然后再转换为文本并不是什么大问题。我面临的主要问题与表格中的手写条目有关。

pdfs 都是手写表格的副本。提取某些区域似乎不是问题（例如，在盒子中手写 X），但其他区域似乎更难。虽然如果其他人有这样做的有效方法，请告诉我。

有没有办法将手写转换为 Unicode 然后提取它？

pdf pdf-scraping

2017-10-23T16:51:32.123

0 投票

1 回答

115 浏览

python - 如何从pdf中提取对应的列数据

pdf包含逐行分隔的数据，并且一行后有一个表格，其中包含标题及其下方的相应值，我无法有序地获取它，而是我一个接一个地获取完整的列标题作为文本。我能够获取数据，逐行显示，以关联标题及其相应的值，但我无法为表格做同样的事情。

python pdf-scraping

2017-12-31T10:56:51.730

0 投票

2 回答

334 浏览

python - 从 PDF 中提取表格

我有一个包含文本、图像和表格的 pdf 文件。我想使用 Python 或 R 从该 pdf 文件中提取表格。

python r pdf pdf-scraping

2018-01-28T06:36:19.783

0 投票

1 回答

814 浏览

windows - 是否可以使用命令行自动运行 PDFelement

我目前正在尝试将一些带有表格的 PDF 解析为 csv/excel 等格式，以便我可以使用 python 等以编程方式处理它们。

我发现 PDFElement 在将 PDF 转换为 excel 方面做得很好，但只是通过 GUI 手动进行转换。

我希望能够使用程序自动化将 PDF 批量转换为 excel 的过程，并且想知道是否有人对如何最好地实现这一点有任何想法。

我最初的直觉是尝试使用一些参数从命令提示符运行程序 .exe。但是，根据他们的支持页面，似乎不支持此功能。有没有解决的办法？还是我应该求助于某种自动点击脚本？谢谢！

windows command-line automation command-line-arguments pdf-scraping

2018-03-12T15:46:30.180

0 投票

1 回答

546 浏览

python - Python PDF 文本提取 - 无法使用 pdfminer/textract 从特定文档中提取

我正在使用 Python 做一个项目，该项目涉及从许多 PDF 文档中提取文本，有趣的是，我遇到了一个无法被这些项目中的任何一个解析的文档：

https://github.com/euske/pdfminer/

https://github.com/deanmalmgren/textract

事实上，即使是命令行工具pdftotext也无法从文档中提取文本。它首先打印文本，然后在提取大约 2 分钟后继续打印垃圾。

该文件可在此处找到：https ://www.aiaa.org/uploadedFiles/Events/Conferences/2013_Conferences/2013_-_GNC_Infotech/Promotional_Materials/GNC%202013%20Final%20Program.pdf

我对以下两种解决方案之一感兴趣：

我怎样才能实现在 Python 中从该文档中提取文本的目标？
一般来说，我怎样才能检测到这样的文档，所以我可以避免尝试完全解析它们？

这些解决方案中的任何一个都是理想的，所以提前致谢！

python pdf text extraction pdf-scraping

2018-03-23T23:15:42.007

0 投票

1 回答

1361 浏览

python - 将数据从 pdf 表中提取为结构化格式

我想以任何结构化格式（如 html、xml、json）抓取 pdf 表数据。我正在使用 python 。我首先使用pdftotext命令行功能将 pdf 转换为文本。但我无法区分pdf中表格的数据。

pdf图片如下图所示：

python scraper pdftotext pdf-scraping

2018-04-17T10:09:20.980

0 投票

0 回答

14 浏览

pdf - PDF 文档存储关于项目符号列表的哪些信息？

我正在尝试从 PDF 文档中提取文本。我想知道 PDF 如何处理项目符号段落。考虑这个例子：

PDF 是否保留任何逻辑元信息，即上面显示的 2 块文本是项目符号列表系统的成员，还是只留给人类大脑来解释项目符号？这些信息对我开发我目前正在使用的文本挖掘工具非常有帮助。

谢谢，

pdf pdf-scraping

2018-04-18T10:40:55.450

0 投票

1 回答

1873 浏览

web-scraping - 使用文本模块进行 PDF 抓取

我有一个 Node.js 应用程序，它必须对在线 pdf 进行一些网络抓取。这是一段代码：

如您所见，我使用textrack包来抓取pdf。当我运行这个应用程序时，我得到：

在npm textract 模块页面中，写着PDF 提取需要安装 pdftotext，链接。

所以我去http://www.foolabs.com/xpdf/download.html并下载并安装了Download XpdfReader: Windows 64-bit。

我再次尝试使用node app.js（app.js是我的应用程序的主文件）运行应用程序，但我得到了同样的错误，所以我下载了 Download the Xpdf tools: Windows 64-bit。

这是一个 zip 文件，我解压缩该文件，然后尝试安装pdftotext.exe，但是当我双击时pdftotext.exe，会发生任何事情。我也尝试使用管理员权限安装它。没有。

我正在使用 Windows 10、64 位。

我必须做什么？

编辑 1

pdftotext.exe按照建议，我将文件复制到C:\Windows\System32. 然后我再次运行我的程序，我遇到了这个问题：

我必须更改环境变量吗？

编辑 2

我C:\myUserName\projectPath\file.js的是这样的：

web-scraping text-extraction pdftotext pdf-scraping

user6118527

2018-04-24T13:16:48.243

1 2 3 4 5 6 7 8 9 10