问题标签 [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
55 浏览

objective-c - 无法从 CGPDFOperator C 函数中读取/写入 Objective-C 类的属性

好的,所以我正在使用从CGPDFScanner. 这些函数位于一个名为的类中,该类PDFContentStreamProcessorNSMutableArray属性名为myArray

ARC 已启用,但我在此类的构建阶段做了一个例外。

它可以很好地找到文本、整数和对象,但如果我不能将它们存储在任何地方,我就无法对这些值做太多事情。有任何想法吗?

我也试过这样:

...也没有运气

0 投票
2 回答
4661 浏览

c# - 解析带有可点击内容页面的 pdf 文件

假设我们有一个包含可点击内容页面的 pdf 文件。(我说的是章节和子章节)如何在 C# 中解析某个文件以及应用程序如何实现它正在阅读的 pdf 是否有章节/内容等?

这是指向没有可点击目录的 pdf 的链接 https://docs.google.com/open?id=0B1EbI-EMJxmkODE1Mm5WbFpEdXc 我似乎没有找到带有可点击目录的 pdf,但我找到了有关如何操作的指南在这里做 http://everythingyoumightneed.blogspot.com/2013/01/how-to-create-pdf-with-clickable-links.html

所以我的问题是:应用程序如何区分哪个是哪个以及如何解析具有可点击链接的应用程序?

0 投票
2 回答
5545 浏览

java - 从java上的url解析pdf。我可以使用 jsoup 吗?

我有网址: http: //pasca.undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500(它不是直接访问pdf,而是定向到pdf文件。我想解析这个pdf文件并获取 pdf 文本。我尝试使用 jsoup :`

输出是:

有什么想法吗?谢谢你

0 投票
1 回答
1165 浏览

pdf - 混合外部参照表和外部参照流

您确实不能在 PDF 文件中包含通用外部参照表和外部参照流吗?我以为这就是所谓的“混合 PDF 文档”!

任何想法?

0 投票
1 回答
812 浏览

pdf - 尝试使用 XREF 流注释 PDF

我有这个示例 PDF 文件:

原始文件

我试图附加一个文本注释,结果如下:

注释文件

但是,MAC OSX 上的预览仍然显示没有新注释的文档,Adobe Reader 甚至无法打开带注释的文档,说明:

打开此文档时出错。文件已损坏,无法修复。

到目前为止,我非常幸运地注释了具有“经典 XREF 表”而不是编码的其他文件。但是,编写我自己的编码 XREF 流似乎不起作用。我很确定我的流没问题,但它仍然可能是我缺少的其他东西吗?

0 投票
1 回答
1359 浏览

parsing - haskell - 解析/读取 .pdf 文件的内容

在haskell中是否有可能只解密一个.pdf文件,读入内容并返回一个字符串?而且,如果有的话,你能给我举个小例子吗,比如:

提前致谢。

最好的问候,吉米

0 投票
2 回答
6170 浏览

pdf - 如何在 itextSharp 中检测表开始?

我正在尝试将 pdf 转换为 csv 文件。pdf文件具有表格格式的数据,第一行作为标题。我已经达到了可以从单元格中提取文本、比较表格中文本的基线并检测换行符的水平,但我需要比较表格边框以检测表格的开头。我不知道如何检测和比较 PDF 中的行。谁能帮我?

谢谢!!!

0 投票
0 回答
129 浏览

parsing - 无法使用 Tika1.3 (+lucene4.2) 解析 pdf

我试图解析一个 pdf 文件并获取它的元数据和文本。我仍然没有得到想要的结果。我确定这是一个愚蠢的错误,但我看不到它。文件d.pdf存在,它位于项目的根文件夹中。导入也是正确的。

输出:没有错误,但..也不多:(

0 投票
1 回答
6362 浏览

python - pdf2txt 的输出中的这个 (cid:51) 是什么?

所以我试图从 pdf 文件中提取文本,我需要它的位置、宽度、高度、字体。

我尝试了很多,但最有用和最完整的解决方案看起来是PDFMiner,在这种情况下,更准确地说是pdf2txt.py

我遵循了文档和示例,并尝试Learn More使用以下命令从我的 pdf 中提取文本:

输出buttons.xml如下所示:

第一个字符应该是 L 并且 51(cid:51)似乎与我在句子中的任何字符都不匹配,关于ascii 表utf-8 表

所以正如标题所说,我想知道它是什么,以及如何使用这些(cid:51)...


编辑

所以我发现程序写入的不是真正的字符 (cid:%d),因为他不承认这是一个 unicode 字符串。

它首先调用此函数来编写字符:

但是assert失败并触发PDFUnicodeNotDefined被捕获并调用的事件:

这就是我以包含所有这些 (cid:%d) 的文件结尾的方式。

我对python相当陌生,我试图找出一种识别这些字符的方法,它应该是一个不?有人知道吗?

0 投票
1 回答
2791 浏览

c# - get text paragraph from pdf using itextsharp

is there any logic to get paragraph text from pdf file using itextsharp?i know pdf only supports run of texts and its hard to determine which runs of texts are related to which paragraph and also i know that there isn't any <p> tags or other tags to determine paragraph in pdf..However i have tried to get coordinate of runs of texts to build paragraph from its coordinate but with no luck :(. my code snippet is here:

Do any body have any logic related to this issue??