问题标签 [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
395 浏览

c# - HTTPS SSL登录和PDF下载

我正在为这个问题写信寻求帮助:连接到我们供应商之一的网站并自动下载 PDF 格式的发票。我尝试了几种方法:

1:Webbrowser - 我可以访问带有 pdf 链接的页面,但我无法将它们保存到磁盘(在新窗口中打开)(PDF 是即时生成的,属于这种类型https://www.axxes.fr/it/client/pge1_relevefacturepdf.aspx?selnumdoc=700051126&typ=DUP&lng=ES&famdoc=DUP&typfic=PDF

2:Watin - 我不能像 Webbrowser 那样自动保存 pdf

3:HttpWebRequest - 我无法登录。这是我使用的代码:

供应商站点是https://www.axxes.fr/it/ 认证模块是这样的:

我尝试使用 Fiddler 分析导航浏览器的流量,这是因为:

1

2

3

虽然我发布的代码只是对 CGI 的请求。老实说,我不知道如何访问。好像少了点什么……饼干?如何管理它?你有什么建议吗?

任何想法?再次感谢

0 投票
3 回答
24442 浏览

c# - 解析pdf文件

我需要根据文件的内容将大型 pdf 文档拆分为较小的文件。我们使用 BCL easyPDF 来操作 pdf 文件。easyPDF可以根据页码拆分pdf文档,但不能根据文件内容拆分文档。它也没有搜索功能(据我所知,如果我错了,请有人告诉我。)来确定内容的位置。

现在有人可以告诉我如何使用 .net 在 pdf 文件中找到文本的位置吗?

谢谢

0 投票
1 回答
1048 浏览

python - 为关键字刮取pdf报纸

我有几百份 pdf 格式的报纸和一个关键字列表。我的最终目标是获取提及特定关键字的文章数量,记住一个 pdf 可能包含多个提及相同关键字的文章。

我的问题是,当我将 pdf 文件转换为纯文本时,我丢失了格式,这使得无法知道文章何时开始以及何时结束。

解决这个问题的最佳方法是什么,因为现在我认为这是不可能的。

我目前正在为这个项目使用 python 和 pdf 库 pdfminer。这是其中一个pdf。 http://www.gulf-times.com/PDFLinks/streams/2011/2/27/2_418617_1_255.02.11.pdf

0 投票
2 回答
2714 浏览

python - Python - 如何将许多单独的 PDF 转换为文本?

问题:如何使用 Python 包“slate”在同一路径中读取多个 PDF?

我有一个包含 600 多个 PDF 的文件夹。

我知道如何使用 slate 包将单个 PDF 转换为文本,使用以下代码:

但是,这将您一次限制为一个 PDF,由“migFiles[0]”指定 - 0 是我的路径文件中的第一个 PDF。

如何一次将多个 PDF 读取为文本,并将它们保留为单独的字符串或 txt 文件?我应该使用另一个包吗?如何创建一个“for 循环”来读取路径中的所有 PDF?

0 投票
2 回答
3461 浏览

pdf - 从 PDF 中抓取非结构化信息

我希望将此 PDF中的信息刮成以下格式:

在此处输入图像描述

我已经圈出了 PDF 中信息的来源区域。

如您所见,此 PDF 的格式是高度非结构化的,更糟糕​​的是,不同的 PDF 可能采用完全不同的布局,并且还会缺少信息。不熟悉采矿的人已经很难解析此 PDF,因为并非所有信息都已明确标记。

所以我的问题是:是否有可能想出一种自动化的方法来处理数千个这样的 PDF?如果是这样,我将如何开始处理这项任务?我可以用 R 和 Python 很好地编程。

我意识到这是一项相当困难(如果不是不可能的话)的任务。感谢您的输入。

0 投票
7 回答
4135 浏览

r - 抓取跨越多个页面的大型 pdf 表

我正在尝试抓取跨越多个页面的 PDF 表格。我尝试了很多东西,但最好的似乎是 这里pdftotext -layout建议。问题是生成的文本文件不容易使用,因为表格布局在页面之间有所不同,因此列没有对齐。还要注意以“Solsonès”开头的行中的缺失值:

完整的文件下载 - UTF8

所以,这个输出不是很容易解析。还有什么其他方法可用?

似乎我使用的每个工具都只能提取有关表格单元格布的信息,但不能提取属于特定列的信息。如果单元格为空,这一点非常明显 - 空单元格不在输出中,您只会得到带有布局的非空“单元格”。PDF 本身是否包含此表格信息?如果没有,那么搜索将提取它的工具是没有意义的。

付费解决方案并非没有问题,因为它最终可能比花费我几个工作日的时间更便宜......


我试过的:

编辑:Ian 推荐的 Cloud SDK。我注册了,但我绝对不知道从这里去哪里——如何上传页面、识别它们等:

在此处输入图像描述

0 投票
1 回答
2795 浏览

r - tm readPDF:文件错误(con,“r”):无法打开连接

我已经尝试了tm::readPDF 文档中推荐的示例代码

但我收到以下错误(在调用返回的函数后发生readPDF):

请注意,我已将所有 xpdf 二进制文件安装到当前目录(但这由if条件处理)。

编辑:发现这是一个错误。什么是最简单的解决方法?

0 投票
1 回答
1120 浏览

java - 如何从 PDF 中提取数据并使用 java 拆分为特定类别

我正在尝试从 PDF 中提取数据并将其拆分为某些类别。我能够从 PDF 中提取数据并根据其字体大小将其拆分为类别。例如:假设有3个类别,国家类别,首都类别和城市类别。我能够将所有国家、首都和城市归入各自的类别。但是我无法绘制出哪个首都属于哪个城市和哪个国家或哪个国家属于哪个城市和首都。*它是随机读取数据,我如何在不破坏顺序的情况下从下到上读取数据,所以我可以将第一个单词放在第一类,第二个放在第二个等等。*

或者有人知道一些更有效的方法吗?所以我可以将文本放入各自的类别并映射它。

我正在使用 Java,这是我的代码:

SemTextExtractionStrategy 类:

}

0 投票
2 回答
5544 浏览

python - 使用 pdfminer 使用 Python 通过 URL 解析 PDF

我正在尝试解析这个文件,但没有从网站上下载它。我已经用我硬盘上的文件运行了这个,我可以毫无问题地解析它,但是运行这个脚本它会跳闸。

我想我把网址整合错了。

0 投票
0 回答
127 浏览

python - 在某些行中用空字段刮取pdf

我正在尝试获取 CUSIP NO。和pdf中的状态。我只想要具有字段状态的行(“添加”或“删除”)。

我目前遇到的问题是我不知道如何获取这两个字段,因为大多数情况下 STATUS 字段都不存在,而且我找不到知道一行何时结束以及新行何时开始的方法。

这是我的代码:

这是 xml 的一部分:

编辑:骇人听闻的方法可能是使用 xpath 来获取并执行几个 getnext() 函数调用,直到状态应该在的字段,如果该字段不同于“添加”或“删除”,则此 CUSIP 不存在状态。

哈克解决方案功能: