问题标签 [pdf-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 R 识别 PDF 表格
我正在尝试从一些 pdf 报告中的表格中提取数据。
我已经看到一些使用 pdftools 和类似软件包的示例,我成功地获取了文本,但是,我只想提取表格。
有没有办法使用 R 来识别和提取表?
python - 准xml提取2个开始标签之间的文本
我从pdf中抓取了一些数据。它的数据几乎像 XML,看起来像这样
"(1) Data-field-1 (3) Data-field-3 (5) Data-field-5; (1) Data-field-1 (2) Data-field-2 (3) Data-field-3 (5) Data-field-5; ; (2) Data-field-2 (3) Data-field-3 (5) Data-field-5 (6) Data-field-6;"
等
因此,对于每个条目,数据字段都以 (x) 开头。通常,条目以分号 (;) 结尾,但数据字段中通常有分号,因此我不能将其用作分隔符。新记录开始的唯一指标是开始标签中的整数小于之前的整数。标签是从 1 到 6。我想尝试获取字典字典,因此看起来类似于 JSON,例如
{'Row1':{1 : 'Data-field-1', 3 : 'Data-field-3', 5 : 'Data-field-5'},'Row2': {1: 'Data-field-1', 2: 'Data-field-2', 3: 'Data-field-3' 5: 'Data-field-5'},Row3': { 2: 'Data-field-2' ,3: 'Data-field-3' ,5: 'Data-field-5',6: 'Data-field-6'}
,ETC
尝试在 python 中使用正则表达式来做到这一点,这是我匹配匹配的最后一段代码:
但是由于数据字段中的额外分号而导致回溯错误(列表索引超出范围)关于如何做得更好的任何想法?
pdf - 从pdf副本中提取手写信息
我正在对一组记录进行编目。将纸质记录转换为 PDF,然后再转换为文本并不是什么大问题。我面临的主要问题与表格中的手写条目有关。
pdfs 都是手写表格的副本。提取某些区域似乎不是问题(例如,在盒子中手写 X),但其他区域似乎更难。虽然如果其他人有这样做的有效方法,请告诉我。
有没有办法将手写转换为 Unicode 然后提取它?
python - 如何从pdf中提取对应的列数据
pdf包含逐行分隔的数据,并且一行后有一个表格,其中包含标题及其下方的相应值,我无法有序地获取它,而是我一个接一个地获取完整的列标题作为文本。我能够获取数据,逐行显示,以关联标题及其相应的值,但我无法为表格做同样的事情。
python - 从 PDF 中提取表格
我有一个包含文本、图像和表格的 pdf 文件。我想使用 Python 或 R 从该 pdf 文件中提取表格。
windows - 是否可以使用命令行自动运行 PDFelement
我目前正在尝试将一些带有表格的 PDF 解析为 csv/excel 等格式,以便我可以使用 python 等以编程方式处理它们。
我发现 PDFElement 在将 PDF 转换为 excel 方面做得很好,但只是通过 GUI 手动进行转换。
我希望能够使用程序自动化将 PDF 批量转换为 excel 的过程,并且想知道是否有人对如何最好地实现这一点有任何想法。
我最初的直觉是尝试使用一些参数从命令提示符运行程序 .exe。但是,根据他们的支持页面,似乎不支持此功能。 有没有解决的办法?还是我应该求助于某种自动点击脚本?谢谢!
python - Python PDF 文本提取 - 无法使用 pdfminer/textract 从特定文档中提取
我正在使用 Python 做一个项目,该项目涉及从许多 PDF 文档中提取文本,有趣的是,我遇到了一个无法被这些项目中的任何一个解析的文档:
https://github.com/euske/pdfminer/
https://github.com/deanmalmgren/textract
事实上,即使是命令行工具pdftotext
也无法从文档中提取文本。它首先打印文本,然后在提取大约 2 分钟后继续打印垃圾。
我对以下两种解决方案之一感兴趣:
- 我怎样才能实现在 Python 中从该文档中提取文本的目标?
- 一般来说,我怎样才能检测到这样的文档,所以我可以避免尝试完全解析它们?
这些解决方案中的任何一个都是理想的,所以提前致谢!
web-scraping - 使用文本模块进行 PDF 抓取
我有一个 Node.js 应用程序,它必须对在线 pdf 进行一些网络抓取。这是一段代码:
如您所见,我使用textrack
包来抓取pdf。当我运行这个应用程序时,我得到:
在npm textract 模块页面中,写着PDF 提取需要安装 pdftotext,链接。
所以我去http://www.foolabs.com/xpdf/download.html并下载并安装了Download XpdfReader: Windows 64-bit。
我再次尝试使用node app.js
(app.js
是我的应用程序的主文件)运行应用程序,但我得到了同样的错误,所以我下载了 Download the Xpdf tools: Windows 64-bit。
这是一个 zip 文件,我解压缩该文件,然后尝试安装pdftotext.exe
,但是当我双击 时pdftotext.exe
,会发生任何事情。我也尝试使用管理员权限安装它。没有。
我正在使用 Windows 10、64 位。
我必须做什么?
编辑 1
pdftotext.exe
按照建议,我将文件复制到C:\Windows\System32
. 然后我再次运行我的程序,我遇到了这个问题:
我必须更改环境变量吗?
编辑 2
我C:\myUserName\projectPath\file.js
的是这样的: