问题标签 [pdf-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 用于将 PDF 转换为文本的 Python 模块
是否有任何 python 模块可以将 PDF 文件转换为文本?我尝试了在 Activestate 中找到的一段代码,它使用 pypdf,但生成的文本之间没有空格,而且没有用。
screen-scraping - 屏幕刮板如何工作?
我一直听到人们在编写这些程序,我知道他们在做什么,但他们实际上是如何做到的呢?我正在寻找一般概念。
pdf - 议会辩论 PDF 的光学字符识别
对于合同工作,我需要将来自德国联邦议会的许多旧的、仅扫描图形的全体辩论协议 PDF 数字化。
问题是这些文件中的大多数都有两列格式:
示例协议 http://sert.homedns.org/img/btp12001.png
我很想阅读您对以下问题的回答:
- 在将两列输入 OCR 之前如何拆分它们?
- 您推荐哪种商业、开源 OCR 软件或框架,为什么?
请注意,任何工具、编程语言、框架等都可以。不要犹豫,推荐深奥的产品,图书馆,如果你认为它们被剪掉了^__^!!
更新:这些文件已经被议会扫描 o_O:样本(与上图相同),其中有很多,我想尽快交付合同,所以我不能去获取相同文件的打印副本,剪切并亲自扫描它们。他们太多了。
最好的问候,
Cetin Sert
html - 如何将 PDF 转换为 HTML?
在任何通用语言中,有哪些好的库可以将 PDF 转换为 HTML?
pdf - 如何从 PDF 中提取嵌入的 OCR 数据?
我有嵌入 OCR 数据的 PDF 文件。(所以我已经对它们进行了 orcd)所以它们是可搜索的。现在我想提取这个 OCR 数据,因为我想放入我的 tomcat6 搜索服务器。为此,我需要普通的 OCR 数据。所以我的问题是,是否可以从 pdf 文件中提取这个嵌入的 OCR 数据?获得带有坐标的文件会很好。但是获取纯文本文件也足够了。
pdf - 将 PDF 文件转换为漂亮的表格
我有这个 PDF 文件,它分为 5 列。
我查看并查看了 Stack Overflow(并疯狂地用 Google 搜索)并尝试了所有解决方案(包括尝试 Adobe Acrobat 本身的最后手段)。
但是,由于某种原因,我无法获得 csv/xls 格式的这 5 列 - 因为我需要对它们进行排列。通常当我导出它们时,格式很糟糕,所有条目都是逐行排列的,有一些数据丢失。
http://www.2shared.com/document/PageE4A1T/ex1.html
这是上面文件摘录的链接,但我真的很沮丧并且没有选择。
pdf - 以编程方式替换 PDF 中的文本
我有包含应该替换文本的 PDF 文件。更具体地说,应该翻译文本并用翻译版本替换。重要的是 PDF 结构的其余部分保持不变。请注意,文本在 PDF 中可用,不需要像 OCr 之类的技术。此外,如果保留字体和其他文本属性会很好。
您会推荐哪些库来将文本提取为易于编辑的格式(例如 CSV)并重新放入新文本?
linux - 将 PDF 文件中的数据读入 R
这还可以吗!?!
我有一堆需要导入数据库的遗留报告。但是,它们都是pdf格式的。有没有R
可以阅读pdf的软件包?或者我应该把它留给命令行工具吗?
这些报告是用 excel 制作的,然后是 pdf 的,所以它们有规则的结构,但有很多空白的“单元格”。
python - 使用python处理pdf中的表格
我正在处理一个pdf文件。该pdf中有许多表格。
根据pdf中给出的表名,我想使用python从该表中获取数据。
我从事过 html、xlm 解析,但从未使用过 pdf。
谁能告诉我如何使用 python 从 pdf 中获取表格?