问题标签 [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
37385 浏览

excel - PDF 数据和表格抓取到 Excel

我正在尝试找出一种提高数据输入工作效率的好方法。

我想做的是想出一种从 PDF 中抓取数据并将其输入 Excel 的方法。

更具体地说,我正在使用的数据来自杂货店传单。就目前而言,我们必须手动将传单中的每笔交易输入数据库。传单样本是http://weeklyspecials.safeway.com/customer_Frame.jsp?drpStoreID=1551

我希望做的是为产品、价格和预定义选项(忠诚卡、优惠券、选择品种......之类的东西)提供列。

任何帮助将不胜感激,如果我需要更具体,请告诉我。

0 投票
0 回答
445 浏览

php - 使用 PDF Parser 库从文本输入中解析多个 PDF

我正在尝试使用PDF Parser PHP 库来解析通过表单 textarea 提交的多个 PDF 中的文本(每行一个 PDF URL)。

我正在使用的代码是:

注意:'vendor/autoload.php' 是一个Composer文件。

当我只将 1 个 URL 放入 textarea 时,这可以按预期工作,但如果我放入多个 URL,它不会返回任何内容。我不确定我的 foreach 循环是否有问题,或者这个库是否不支持在一个循环中解析多个 PDF ......任何建议都值得赞赏!

0 投票
0 回答
648 浏览

oracle - 如何从保留原始格式的 pdf 中获取文本(使用 CTX_DOC)​​?

我使用此代码过滤pdf文件中的文本:

该解决方案很好并且对我有用,但是有什么方法可以获取表格数据,现在它正在逐个短语或逐行过滤文本。

例如,如果 pdf 包含以下值:

我希望输出原样,但当前设置给出的输出如下:

有什么方法可以获取文本的原始格式pdf吗?

是否可以更换过滤器?

0 投票
0 回答
657 浏览

ios - 从 iOS 应用程序中的 Pdf 文件中提取文本(印地语)。

我看到很多应用程序实际上都有印地语故事,但我想知道它是如何工作的。

有什么方法可以解析印地语 pdf 或 doc 文件吗?

灵活地在 Objective-C 或 Swift 中提供解决方案。

0 投票
3 回答
3003 浏览

pdf - 用Python3.4提取PDF文本

pdf 文件中的文本是文本格式,不是扫描的。PDFMiner不支持python3,有没有其他解决方案?

0 投票
2 回答
875 浏览

python - 如何使用 Python3 打开和读取 pdf(原为 .html)文件

我需要在 python3 中打开这个文件:

http://www.arch.gob.ec/index.php/descargas/doc_download/478-historial-de-produccion-nacional-de-crudo-2011.html

在这里我必须阅读它,并提取数据表。我已经搜索了几个小时,但似乎没有任何效果。我是抓取/解析的新手,这是我第一次研究 PDF 的文件处理。

感谢您的各种帮助!

0 投票
1 回答
2298 浏览

php - PDF 解析器 PHP 库不工作

我正在使用PDF Parser PHP 库来解析几个 PDF 中的文本。它适用于其中的大多数,但似乎只是超时并停止对某些 PDF 工作。

这是我正在使用的代码(直接来自他们的演示页面):

当我用该文件的 URL 替换“document.pdf”时,它可以正常工作。

但是,当我将 'document.pdf' 替换为该文件的 URL 时,它只是超时并出现空白页。

任何想法为什么它适用于一个文件而不适用于另一个文件?

提前感谢您的任何建议!

0 投票
2 回答
196 浏览

ios - CGPDF<...> - 二传手在哪里?

有什么方法可以使用 CGPDF<...> 创建 PDF 对象(例如,带有自定义 PDF 生产者/消费者/查看者所需参数的 PDF 字典),还是我必须编写自己的解析器并创建新的预告片,外部参照等,以便向 PDF 添加新对象?据我了解,CG 在创建 PDF 时会将其图形上下文的所有绘图调用转换为正确的 PDF 对应项 - 但我有应该存储在 PDF 中的自定义数据/对象(例如,用于注释、线程等),但显然CG不能自动创建。

我只能找到所有这些吸气剂

从字典中获取数据

CGPDFDictionaryGetArray
CGPDFDictionaryGetBoolean
CGPDFDictionaryGetCount
CGPDFDictionaryGetDictionary
CGPDFDictionaryGetInteger
CGPDFDictionaryGetName
CGPDFDictionaryGetNumber
CGPDFDictionaryGetObject
CGPDFDictionaryGetStream
CGPDFDictionaryGetString

任何帮助,将不胜感激 ?

顺便说一句 - 有没有人知道一些链接,我可以在其中找到使用此函数及其回调在现实世界中可以实现的目标。

CGPDFDictionaryApplyFunction
CGPDFDictionaryApplierFunction

也许一个示例应用程序可以看到它的实际效果?

提前谢谢

0 投票
2 回答
7514 浏览

javascript - PDF.js 无法在 IE 中正确呈现 pdf

我正在使用 PDF.js 框架来呈现 PDF。我正在使用 base64 数据来呈现 PDF。但是在 IE 11 pdf 中看起来很模糊。

请参见 IE 11 的以下屏幕

在此处输入图像描述

见下面的代码:

请帮我。

0 投票
1 回答
268 浏览

objective-c - 如何对在缓冲区流中包含零的字节缓冲区( NSData / const char* )进行 NSLog 记录?

我想NSLog具有压缩流对象的PDF的内容,其中包括流中间的零(' 0 ')。

不幸的是,第一个流对象中第一次出现“ 0 ”会终止控制台上的输出......

在SO或云中根本找不到任何东西。
尝试了4种不同的方式...

所有 4 个在控制台上的 OUTPUT:(当然——它在后备存储中始终是一个以 null 结尾的字符串)

这里流结束是因为'x + TT'之后的'0'(这是流对象的开始)......

任何人?