问题标签 [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1521 浏览

pdf - iTextSharp PDF 使用 C# 读取突出显示的文本(突出显示注释)

我正在开发一个将 pdf 内容转换为文本的 C# winform 应用程序。除了在 pdf 的突出显示文本中找到的内容外,所有必需的内容都被提取出来。请帮助获取工作示例以提取 pdf 中的突出显示文本。我在项目中使用 iTextSharp.dll

0 投票
1 回答
985 浏览

pdf-scraping - 如何从网站下载链接的pdf文件?

我想从一个站点下载数百个 pdf 文档。我已经尝试过 SiteSucker 和类似工具,但它不起作用,因为文件和链接到它们的页面之间似乎存在一些“分离”。我不知道如何用更好的方式来描述这一点,因为我对网站编程或抓取知之甚少。关于这可能是什么以及如何规避它的任何建议?

更具体地说,我正在尝试下载联合国决议的 pdf,存储在这样的页面上:http ://www.un.org/depts/dhl/resguide/r53_en.shtml

联合国网站上似乎有一个内置的“搜索功能”,这使得像 SiteSucker 这样的虚拟抓取无法按预期工作。

还有其他我可以使用的工具吗?

0 投票
2 回答
559 浏览

python - How to read line by line in pdf file and create a CSV

Here is my pdf enter image description here I found THIS and I used it to scrap my pdf.

Its pretty mixed up. or Is is because the PDF is formatted in a way which is unreadable? I thought there was a way I could scrap each row and create a CSV with the columns by iteration or something.

Like populate a CSV with columns

Is there a way around this?

0 投票
1 回答
382 浏览

c# - 第二次无法点击锚标签

我正在编写一个抓取程序。

我第一次能够单击锚标签,但是一旦我再次循环,就不会发生这种情况。我已经在 IE 的 Watin 实例中做到了这一点。我怀疑这是因为我所做的 IE 实例的背面。

请找到这两段代码。

下载PDF的方法

另一种方法,其中我无法点击锚标记,也无法引发 onclick 事件。

可以请人帮助我,第二种方法第一次效果很好,但第二次不行。我对 IE 实例有疑问,因为我尝试过更多的睡眠时间,并且它能够进入循环但无法单击链接。

提前致谢

0 投票
0 回答
223 浏览

r - 就像从 html 或 json 从 web 上抓取数据一样,是否可以使用 R 在 pdf 中完成相同的操作?

我想将研究文章(pdf文件)中的表格和类似表格的数据导入R。

示例: http: //www.bioconductor.org/packages/release/bioc/vignettes/DESeq/inst/doc/DESeq.pdf

这就是这里作为例子的pdf。简单的表开始。pdf 文件的第 6 页我截取了屏幕截图以了解该场景。

如何提取该表?在此处输入图像描述

0 投票
8 回答
41121 浏览

python - 如何在 Python 中解锁“安全”(读保护)PDF?

在 Python 中,我使用pdfminer从 pdf 中读取文本,并使用此消息下方的代码。我现在收到一条错误消息:

当我用 Acrobat Pro 打开这个 pdf 文件时,发现它是安全的(或“读保护”)。然而,从这个链接中,我了解到有许多服务可以轻松禁用这种读取保护(例如pdfunlock.com。当深入研究 pdfminer 的源代码时,我看到上面的错误是在这些行上生成的。

由于有许多服务可以在一秒钟内禁用这种读保护,我认为这很容易做到。看起来这.is_extractable是一个简单的属性doc,但我不认为它像更改.is_extractable为 True..那样简单。

有人知道如何使用 Python 禁用 pdf 的读取保护吗?欢迎所有提示!

=================================================

您将在下面找到我目前从非读保护中提取文本的代码。

0 投票
3 回答
110748 浏览

python - 从 PDF python 中提取/识别表格

是否有任何支持表格识别和提取的开源库?

我的意思是:

  1. 识别表结构存在
  2. 根据内容对表格进行分类
  3. 以有用的输出格式从表中提取数据,例如 JSON / CSV 等。

我查看了有关此主题的类似问题,发现以下内容:

  • PDFMiner解决了问题 3,但似乎用户需要向 PDFMiner 指定每个表存在表结构的位置(如果我错了,请纠正我)
  • pdf-table-extract试图解决问题 1 但根据待办事项列表,目前无法识别由空格分隔的表。这是一个问题,因为我的 PDF 中的所有表格都由空格分隔!

目前,我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表结构。因此,任何替代方法都将受到欢迎!

0 投票
1 回答
545 浏览

java - 从 PDF 文档中提取数据

我有一个 PDF 文件。

它包含表格格式的数据。我想使用逗号作为列分隔符将数据提取到逗号分隔的文本文件中。

有什么建议么?

0 投票
1 回答
253 浏览

image - 解码从 PDF 文件中剥离的 JPEG 图像

我有解压缩成jpgs位图的代码,它适用于 JPEG 文件,但是当我将代码提供为 JPEG 时,我直接从 PDF 中剥离了XObject我得到的错误。

Adobe 阅读器可以很好地显示图像,所以我不认为它已损坏。我已经阅读了JPEG文档PDFs,没有发现任何明显的问题。

我的问题是,嵌入在 PDF 流中的“JPEG”和普通的 JPEG 有什么不同吗?如果是这样,那是什么?

注意:我可以手动打开 PDF,复制图像,粘贴到绘画中,然后保存……当我这样做时,一切正常……我的问题是我需要这个自动化。

当我的代码解析 PDF、剥离图像流、将二进制文件转储到文件中,然后我尝试打开该文件时,它不起作用。我错过了什么?

我的错误似乎发生在霍夫曼解码过程中,cdtHuffman表似乎读得很好。

0 投票
1 回答
8988 浏览

python - pdf2txt.py 不执行命令

每当我在命令行上使用 pdf2txt.py 时,源文件都会打开并且命令不会执行。我刚刚安装了这些软件包,但无法让它运行。例如,我将键入命令:

输入命令后,文件 pdf2txt.py 将打开,命令不会执行。有没有人遇到过这个?我究竟做错了什么?

我正在使用 Windows 命令提示符。任何帮助将不胜感激。