问题标签 [pdf-scraping]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

137 问题

0 投票

13 回答

417454 浏览

python - 用于将 PDF 转换为文本的 Python 模块

是否有任何 python 模块可以将 PDF 文件转换为文本？我尝试了在 Activestate 中找到的一段代码，它使用 pypdf，但生成的文本之间没有空格，而且没有用。

cnu

2008-08-25T04:44:06.090

0 投票

5 回答

9491 浏览

pdf - 使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么？

有没有一个很好的库可以从 PDF 中提取文本？如果需要，我愿意为此付出代价。

与 C# 或经典 ASP (VBScript) 一起使用的东西是理想的，我还需要能够将页面与 PDF 分开。

这个问题有一些有趣的东西，尤其是pdftotext ，但如果可以的话，我想避免调用外部命令行应用程序。

pdf text-extraction pdf-scraping

Mark Biek

2008-09-05T20:55:39.767

0 投票

9 回答

22307 浏览

screen-scraping - 屏幕刮板如何工作？

我一直听到人们在编写这些程序，我知道他们在做什么，但他们实际上是如何做到的呢？我正在寻找一般概念。

screen-scraping web-scraping html-content-extraction pdf-scraping console-scraping

Micah

2008-10-01T03:10:54.737

0 投票

4 回答

452 浏览

pdf - 议会辩论 PDF 的光学字符识别

对于合同工作，我需要将来自德国联邦议会的许多旧的、仅扫描图形的全体辩论协议 PDF 数字化。

问题是这些文件中的大多数都有两列格式：

示例协议 http://sert.homedns.org/img/btp12001.png

我很想阅读您对以下问题的回答：

在将两列输入 OCR 之前如何拆分它们？
您推荐哪种商业、开源 OCR 软件或框架，为什么？

请注意，任何工具、编程语言、框架等都可以。不要犹豫，推荐深奥的产品，图书馆，如果你认为它们被剪掉了^__^！！

更新：这些文件已经被议会扫描 o_O:样本（与上图相同），其中有很多，我想尽快交付合同，所以我不能去获取相同文件的打印副本，剪切并亲自扫描它们。他们太多了。

最好的问候，
Cetin Sert

pdf ocr text-extraction layout-extraction pdf-scraping

2009-07-09T14:59:44.620

0 投票

9 回答

22181 浏览

html - 如何将 PDF 转换为 HTML？

在任何通用语言中，有哪些好的库可以将 PDF 转换为 HTML？

html pdf pdf-scraping

2009-10-28T17:52:54.513

0 投票

1 回答

1481 浏览

pdf - 如何从 PDF 中提取嵌入的 OCR 数据？

我有嵌入 OCR 数据的 PDF 文件。（所以我已经对它们进行了 orcd）所以它们是可搜索的。现在我想提取这个 OCR 数据，因为我想放入我的 tomcat6 搜索服务器。为此，我需要普通的 OCR 数据。所以我的问题是，是否可以从 pdf 文件中提取这个嵌入的 OCR 数据？获得带有坐标的文件会很好。但是获取纯文本文件也足够了。

pdf extract ocr pdf-scraping

2011-03-02T13:57:45.487

0 投票

1 回答

699 浏览