问题标签 [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
251 浏览

pdf - PDF数据提取

有没有办法通过突出显示所需的字段来获取扫描的 PDF 图像并从图像中提取数据?我们每天扫描数以千计的房地产契约 PDF 图像,并希望能够自动化数据输入过程。我们面临的问题是没有两件事是相同的。

0 投票
0 回答
486 浏览

vb.net - 检索 PDF 数据

我目前正在开发加载选民名册 pdf 文件的 Windows 应用程序。我要做的是根据 Sr. No.、Epic No.、Name、Father's/Husbands Name、Age、Sex、House No. 和 pincode 获取数据。

数据分为 3 列和 10 行,即每页 30 个人详细信息(某些页面可能更少)。

  • VB.Net 2010
  • .Net 4.5 框架
  • Acrobat Reader DC
  • 操作系统:Windows 7

这是我从其中一个站点找到的,但不起作用

0 投票
0 回答
71 浏览

pdf - Deceptively easy looking PDF conversion that is causing me fits

I have had tons of success using Tabula to convert PDFs to CSV files, but this particular one is causing me all kinds of issues. The file can be found at here.

It seems the multiple row spans is causing Tabula headaches. I would not expect Tabula to perfectly convert the file and I would expect that I would need to do some post-processing cleanup (usually a few sed commands), but I am not even getting close to creating a CSV file that is a starting point. I have tried a spreadsheet, no-spreadsheet, guess, columns, and area with no success. Does anyone have any other ideas about what to try?

0 投票
1 回答
2051 浏览

itextsharp - 为什么来自 iTextSharp 的 GetTextFromPage 返回越来越长的字符串?

我正在使用iTextSharpnuGet (5.5.8) 的最新库来解析 pdf 文件中的一些文本。我面临的问题是该GetTextFromPage方法不仅从它应该返回的页面中返回文本,它还从前一页返回文本。这是我的代码:

输出看起来像这样,这不是我需要的。我需要页面上实际的文本:

有任何想法吗?

0 投票
2 回答
3028 浏览

python - 如何使用python在文本文件中查找特定的文本行?

我正在尝试打开一个 .txt 文件并搜索特定的字符串。

0 投票
1 回答
1615 浏览

python - 我想用 python 抓取一个印地语(印度语言)pdf文件

我已经编写了从 PDF 文件中抓取所有数据的 python 代码。这里的问题是,一旦被刮掉,单词就会失去语法。如何解决这些问题?我附上代码。

这是PDF的屏幕截图。 PDF 屏幕截图

0 投票
1 回答
12631 浏览

python - 有谷歌图片搜索 API 吗?

我正在寻找一个 API 或一个程序(最好是Python和开源),它可以让我下载Google 图片搜索的前n张图片,比如自行车如果它可以从正常搜索中下载前n 个.pdf 文件,那也会很有帮助。由于并非所有图片和 .pdf 文件都可以在 Google 上找到,而且由于有许多其他搜索引擎,因此也可以从YahooBing抓取结果的程序会非常方便。有没有这样的程序,或者有没有来自谷歌的 API 可以让我每天进行 100 多次搜索?

编辑:路过的人可能想看看我在这里编写这样一个刮板的尝试

0 投票
0 回答
607 浏览

python - 如何通过从软件中抓取数据来自动生成每日报告,然后每天通过电子邮件将其发送给收件人?

我几乎熟悉编程,但我仍在学习如何正确设计程序。这是我想要做的:

我的情况:我在一家酒店工作。每天我们的签到软件都会自动生成前一天的分析报告,比如每日销售情况、家政报告、可用房间等。我们通常是手工做的,我的意思是我们从软件打印报告然后使用一些预先存在的表格通过笔输入数据/数字。完成后,我们通过电子邮件将其发送给管理层。这似乎非常耗时且效率低下,因为它有时会产生人为错误,导致我们不得不返回它,修改它,然后再次通过电子邮件发送。

我想做什么:我想找到一种直接从签到软件中抓取/提取数据的方法,无论是软件本身还是它生成的 pdf 报告。一旦获得该数据,我想将我们需要的数据自动输入到几个电子表格模板中。最后,一旦模板表格完全完成,我想将它们保存到名称+日期别名下的特定目录,并将其通过电子邮件发送给管理层。

我的第一个也可能是我最大的障碍:如何从软件中抓取信息?我知道您使用 Python 之类的语言从网站上抓取信息,但我觉得从软件中提取信息可能有点不同,而且可能更复杂。

问题:有没有更简单的方法来做到这一点?我是否以不合逻辑的方式解决问题?如果是这样,最好的行动方案是什么?

感谢您的建议和指导!

0 投票
2 回答
707 浏览

pdf - 如何将 .pdf 文件转换为 .csv

该文件分为大洲及其国家/地区,我希望大洲作为列标题。我尝试了很多事情,但无法执行该操作。这是pdf文件的链接

0 投票
2 回答
15517 浏览

python-3.x - 如何使用 pdfminer3k 读取 pdf 文件?

我正在使用 python 3.5,我想从 pdf 文件中逐行读取文本。试图使用pdfminer3k但没有在任何地方获得正确的语法。如何正确使用?