问题标签 [pdf-scraping]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

137 问题

0 投票

1 回答

1521 浏览

pdf - iTextSharp PDF 使用 C# 读取突出显示的文本（突出显示注释）

我正在开发一个将 pdf 内容转换为文本的 C# winform 应用程序。除了在 pdf 的突出显示文本中找到的内容外，所有必需的内容都被提取出来。请帮助获取工作示例以提取 pdf 中的突出显示文本。我在项目中使用 iTextSharp.dll

pdf itextsharp pdf-scraping

2014-04-28T13:31:11.627

0 投票

1 回答

985 浏览

pdf-scraping - 如何从网站下载链接的pdf文件？

我想从一个站点下载数百个 pdf 文档。我已经尝试过 SiteSucker 和类似工具，但它不起作用，因为文件和链接到它们的页面之间似乎存在一些“分离”。我不知道如何用更好的方式来描述这一点，因为我对网站编程或抓取知之甚少。关于这可能是什么以及如何规避它的任何建议？

更具体地说，我正在尝试下载联合国决议的 pdf，存储在这样的页面上：http ://www.un.org/depts/dhl/resguide/r53_en.shtml

联合国网站上似乎有一个内置的“搜索功能”，这使得像 SiteSucker 这样的虚拟抓取无法按预期工作。

还有其他我可以使用的工具吗？

pdf-scraping

2014-09-11T09:56:59.973

0 投票

2 回答

559 浏览

python - How to read line by line in pdf file and create a CSV

Here is my pdf enter image description here I found THIS and I used it to scrap my pdf.

Its pretty mixed up. or Is is because the PDF is formatted in a way which is unreadable? I thought there was a way I could scrap each row and create a CSV with the columns by iteration or something.

Like populate a CSV with columns

Is there a way around this?

python pdf scrapy pdf-scraping

2014-09-17T15:56:28.267

0 投票

1 回答

382 浏览

c# - 第二次无法点击锚标签

我正在编写一个抓取程序。

我第一次能够单击锚标签，但是一旦我再次循环，就不会发生这种情况。我已经在 IE 的 Watin 实例中做到了这一点。我怀疑这是因为我所做的 IE 实例的背面。

请找到这两段代码。

下载PDF的方法

另一种方法，其中我无法点击锚标记，也无法引发 onclick 事件。

可以请人帮助我，第二种方法第一次效果很好，但第二次不行。我对 IE 实例有疑问，因为我尝试过更多的睡眠时间，并且它能够进入循环但无法单击链接。

提前致谢

c#watin mshtml pdf-scraping

2014-10-14T13:22:26.500

0 投票

0 回答

223 浏览

r - 就像从 html 或 json 从 web 上抓取数据一样，是否可以使用 R 在 pdf 中完成相同的操作？

我想将研究文章（pdf文件）中的表格和类似表格的数据导入R。

示例： http: //www.bioconductor.org/packages/release/bioc/vignettes/DESeq/inst/doc/DESeq.pdf

这就是这里作为例子的pdf。简单的表开始。pdf 文件的第 6 页我截取了屏幕截图以了解该场景。

如何提取该表？在此处输入图像描述

r pdf pdf-scraping

2014-11-14T04:23:54.190

0 投票

8 回答

41121 浏览

python - 如何在 Python 中解锁“安全”（读保护）PDF？

在 Python 中，我使用pdfminer从 pdf 中读取文本，并使用此消息下方的代码。我现在收到一条错误消息：

当我用 Acrobat Pro 打开这个 pdf 文件时，发现它是安全的（或“读保护”）。然而，从这个链接中，我了解到有许多服务可以轻松禁用这种读取保护（例如pdfunlock.com。当深入研究 pdfminer 的源代码时，我看到上面的错误是在这些行上生成的。

由于有许多服务可以在一秒钟内禁用这种读保护，我认为这很容易做到。看起来这.is_extractable是一个简单的属性doc，但我不认为它像更改.is_extractable为 True..那样简单。

有人知道如何使用 Python 禁用 pdf 的读取保护吗？欢迎所有提示！

=================================================

您将在下面找到我目前从非读保护中提取文本的代码。

python pdf pdfminer pdf-scraping

2015-01-28T13:02:08.977

0 投票

3 回答

110748 浏览

python - 从 PDF python 中提取/识别表格

是否有任何支持表格识别和提取的开源库？

我的意思是：

识别表结构存在
根据内容对表格进行分类
以有用的输出格式从表中提取数据，例如 JSON / CSV 等。

我查看了有关此主题的类似问题，发现以下内容：

PDFMiner解决了问题 3，但似乎用户需要向 PDFMiner 指定每个表存在表结构的位置（如果我错了，请纠正我）
pdf-table-extract试图解决问题 1 但根据待办事项列表，目前无法识别由空格分隔的表。这是一个问题，因为我的 PDF 中的所有表格都由空格分隔！

目前，我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表结构。因此，任何替代方法都将受到欢迎！

python pdf scrape pdf-parsing pdf-scraping

2015-02-16T00:04:14.743

0 投票

1 回答

545 浏览

java - 从 PDF 文档中提取数据

我有一个 PDF 文件。

它包含表格格式的数据。我想使用逗号作为列分隔符将数据提取到逗号分隔的文本文件中。

有什么建议么？

java pdf pdf-scraping

2015-04-15T07:37:29.007

0 投票

1 回答

253 浏览

image - 解码从 PDF 文件中剥离的 JPEG 图像

我有解压缩成jpgs位图的代码，它适用于 JPEG 文件，但是当我将代码提供为 JPEG 时，我直接从 PDF 中剥离了XObject我得到的错误。

Adobe 阅读器可以很好地显示图像，所以我不认为它已损坏。我已经阅读了JPEG文档PDFs，没有发现任何明显的问题。

我的问题是，嵌入在 PDF 流中的“JPEG”和普通的 JPEG 有什么不同吗？如果是这样，那是什么？

注意：我可以手动打开 PDF，复制图像，粘贴到绘画中，然后保存……当我这样做时，一切正常……我的问题是我需要这个自动化。

当我的代码解析 PDF、剥离图像流、将二进制文件转储到文件中，然后我尝试打开该文件时，它不起作用。我错过了什么？

我的错误似乎发生在霍夫曼解码过程中，cdt和Huffman表似乎读得很好。

image jpeg huffman-code compression pdf-scraping

2015-05-29T04:50:28.613

0 投票

1 回答

8988 浏览

python - pdf2txt.py 不执行命令

每当我在命令行上使用 pdf2txt.py 时，源文件都会打开并且命令不会执行。我刚刚安装了这些软件包，但无法让它运行。例如，我将键入命令：

输入命令后，文件 pdf2txt.py 将打开，命令不会执行。有没有人遇到过这个？我究竟做错了什么？

我正在使用 Windows 命令提示符。任何帮助将不胜感激。

python pdf pdfminer pdf-scraping

2015-07-22T21:50:43.650

1 2 3 4 5 6 7 8 9 10