问题标签 [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
135 浏览

python - 使用python从pdf中获取文本数据

我被困在如何在这里处理 pdf 上。我不知道如何直接从网络上抓取,当我在本地下载时它们完全是胡说八道,而不是实际的文本数据。

我曾尝试使用请求下载,但内容就没有用了。

我想弄清楚如何从 pdf 中获取数据。任何建议将不胜感激!

0 投票
2 回答
178 浏览

python - PDF 数据解析器是否可以读取 PowerPoint PDF?

我目前正在开发一个专有的 PDF 解析器,它可以读取具有各种类型数据的多种类型的文档。在开始之前,我在考虑是否可以阅读 PowerPoint 幻灯片。我的雇主使用需要图像和背景设计的演示指南 - 是否可以构建一个解析器,可以从这些 PowerPoint PDF 中读取数据,而不会妨碍幻灯片装饰?

所以工作流程基本上是这样的:

  1. 在项目结束时,项目报告以演示文稿的形式交付。
  2. 演示文稿将转换为 PDF。
  3. PDF 将提交给我的申请。
  4. 该应用程序将阅读幻灯片并创建以数据为中心的报告以供快速查看。

该应用程序的目标是减少需要大量阅读的阅读量,因为其中一些演示报告可能有很多页,而且一天中没有足够的时间。

0 投票
0 回答
540 浏览

excel - 使用 SendKeys ("^a") 复制网站数据并粘贴到 Excel

我有 VBA 代码,我可以在其中浏览网页,但 Sendkeys "^a"、"^c" 不起作用。尝试了多次,但没有运气。

请建议。

使用此代码:

我希望将数据粘贴到 excel 的活动表中

0 投票
1 回答
73 浏览

r - 提取具有不同空白的 PDF 数据作为分隔符

我正在考虑从此 PDF 中获取数据

我遇到了一个问题,其中包含多个单词的位置名称(例如“北岛”)被放入不同的列中。

“read.table”中的“sep”参数似乎只能读取单个空格作为分隔符。理想情况下,我希望任何有多个空格的东西都可以作为分隔符。这是可能吗?

0 投票
1 回答
1644 浏览

react-native - 如何在react-native中从pdf文件中提取内容

我正在做一个个人项目,我希望有一个功能,我可以从文件系统中获取一个 pdf 文件并通过 ANYHOW 读取它的内容。

我尝试了所有可能的库,但没有任何效果,其中大多数不再支持。

顺便说一下,我正在测试ios。

我的观点的一个例子是:

例如,运行此代码会产生 -> null 不是对象(评估 RNFSManager.RNFSFileTypeRegular)

任何帮助,将不胜感激。

0 投票
0 回答
54 浏览

r - 从 PDF 中抓取数据

我正在尝试使用 R tabulizer 包从 pdf 中收集数据。但是,当我尝试将数据转换为数据框并将其导出为 CSV 时出现错误。我的代码如下。有人可以帮我解决这个问题吗?

0 投票
6 回答
19571 浏览

python - 从pdf中提取数据的最佳方法是什么

我有数千个 pdf 文件需要从中提取数据。这是一个示例pdf。我想从示例 pdf 中提取此信息。

在此处输入图像描述

我对 nodejs、python 或任何其他有效方法持开放态度。我对python和nodejs知之甚少。我尝试在这段代码中使用 python

但我被困在如何查找采购历史记录上。从 pdf 中提取采购历史的最佳方法是什么?

0 投票
0 回答
424 浏览

web-scraping - 我需要从 100 个 Microsoft Word 文档中抓取数据并在 CSV 文件中创建一个表格

我有 100 多个 Microsoft Word 文档。每个文档都有相同的标题。我需要能够读取这些文档中存在的数据并创建一个表格。以 CSV 文件的形式输出。

我尝试使用Scrapy。但我是新手,我不知道如何一次合并所有文件。以及之后如何进行。

0 投票
1 回答
620 浏览

python-3.x - 如何使用 python 将扫描的 PDF 文件转换为可编辑的 PDF 文件?

我只需要知道我们是否可以使用 python 将扫描的 pdf 文件转换为可编辑的 pdf 文件。我知道那里有几个图书馆,比如pytesseract, pyocr. 在这方面的指导将不胜感激。谢谢

0 投票
0 回答
33 浏览

python - 试图从pdf中提取数据并理解它并将其上传到数据库

我有很多 PDF,其中包含姓名、地址、联系信息、电子邮件 ID 和更多详细信息等数据。我正在尝试编写一个程序来将此数据转换为文本文件并使用不同的方法来提取信息。我使用了 line.startswith 、 Regex 、字符串切片等方法来提取这些信息并将其存储为变量,我将使用这些变量将其上传到数据库。问题 1:是否有更有效的方法来执行此操作,因为我有超过 1000 个 PDF,并且在某些 PDF 中某些值,例如电子邮件 ID 为空。问题 2:每个 PDf 都有很多人的信息,每个人都有多个联系地址,多个其他信息 0 存储此信息的最佳方式是什么,我如何保存多个地址,每个地址都有自己的唯一信息:

地址数据有点像这样 ADDRESS: *****************

类别:办公室

居住代码:拥有

报告日期:21-11-2017

地址: *************************

类别:永久

居住代码:拥有

报告日期:29-04-2017

地址: ****************************

类别:永久

居住代码:

报告日期:2017 年 4 月 18 日