问题标签 [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
13 回答
417454 浏览

python - 用于将 PDF 转换为文本的 Python 模块

是否有任何 python 模块可以将 PDF 文件转换为文本?我尝试了在 Activestate 中找到的一段代码,它使用 pypdf,但生成的文本之间没有空格,而且没有用。

0 投票
5 回答
9491 浏览

pdf - 使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么?

有没有一个很好的库可以从 PDF 中提取文本?如果需要,我愿意为此付出代价。

与 C# 或经典 ASP (VBScript) 一起使用的东西是理想的,我还需要能够将页面与 PDF 分开。

这个问题有一些有趣的东西,尤其是pdftotext ,但如果可以的话,我想避免调用外部命令行应用程序。

0 投票
9 回答
22307 浏览

screen-scraping - 屏幕刮板如何工作?

我一直听到人们在编写这些程序,我知道他们在做什么,但他们实际上是如何做到的呢?我正在寻找一般概念。

0 投票
4 回答
452 浏览

pdf - 议会辩论 PDF 的光学字符识别

对于合同工作,我需要将来自德国联邦议会的许多旧的、仅扫描图形的全体辩论协议 PDF 数字化。

问题是这些文件中的大多数都有两列格式:

示例协议 http://sert.homedns.org/img/btp12001.png

我很想阅读您对以下问题的回答:

  1. 在将两列输入 OCR 之前如何拆分它们?
  2. 您推荐哪种商业、开源 OCR 软件或框架,为什么?

请注意,任何工具、编程语言、框架等都可以。不要犹豫,推荐深奥的产品,图书馆,如果你认为它们被剪掉了^__^!!

更新:这些文件已经被议会扫描 o_O:样本(与上图相同),其中有很多,我想尽快交付合同,所以我不能去获取相同文件的打印副本,剪切并亲自扫描它们。他们太多了。

最好的问候,
Cetin Sert

0 投票
9 回答
22181 浏览

html - 如何将 PDF 转换为 HTML?

在任何通用语言中,有哪些好的库可以将 PDF 转换为 HTML?

0 投票
1 回答
1481 浏览

pdf - 如何从 PDF 中提取嵌入的 OCR 数据?

我有嵌入 OCR 数据的 PDF 文件。(所以我已经对它们进行了 orcd)所以它们是可搜索的。现在我想提取这个 OCR 数据,因为我想放入我的 tomcat6 搜索服务器。为此,我需要普通的 OCR 数据。所以我的问题是,是否可以从 pdf 文件中提取这个嵌入的 OCR 数据?获得带有坐标的文件会很好。但是获取纯文本文件也足够了。

0 投票
1 回答
699 浏览

pdf - 将 PDF 文件转换为漂亮的表格

我有这个 PDF 文件,它分为 5 列。

我查看并查看了 Stack Overflow(并疯狂地用 Google 搜索)并尝试了所有解决方案(包括尝试 Adob​​e Acrobat 本身的最后手段)。

但是,由于某种原因,我无法获得 csv/xls 格式的这 5 列 - 因为我需要对它们进行排列。通常当我导出它们时,格式很糟糕,所有条目都是逐行排列的,有一些数据丢失。

http://www.2shared.com/document/PageE4A1T/ex1.html

这是上面文件摘录的链接,但我真的很沮丧并且没有选择。

0 投票
1 回答
8474 浏览

pdf - 以编程方式替换 PDF 中的文本

我有包含应该替换文本的 PDF 文件。更具体地说,应该翻译文本并用翻译版本替换。重要的是 PDF 结构的其余部分保持不变。请注意,文本在 PDF 中可用,不需要像 OCr 之类的技术。此外,如果保留字体和其他文本属性会很好。

您会推荐哪些库来将文本提取为易于编辑的格式(例如 CSV)并重新放入新文本?

0 投票
5 回答
22801 浏览

linux - 将 PDF 文件中的数据读入 R

这还可以吗!?!

我有一堆需要导入数据库的遗留报告。但是,它们都是pdf格式的。有没有R可以阅读pdf的软件包?或者我应该把它留给命令行工具吗?

这些报告是用 excel 制作的,然后是 pdf 的,所以它们有规则的结构,但有很多空白的“单元格”。

0 投票
4 回答
12675 浏览

python - 使用python处理pdf中的表格

我正在处理一个pdf文件。该pdf中有许多表格。
根据pdf中给出的表名,我想使用python从该表中获取数据。

我从事过 html、xlm 解析,但从未使用过 pdf。
谁能告诉我如何使用 python 从 pdf 中获取表格?