问题标签 [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1933 浏览

php - 'Smalot PDF Parser' 结果:文本不在同一行

所以我安装了 PDF Parser ( http://www.pdfparser.org/ )。我检查了他们的网站并使用了演示。这给了我想要的结果。经过数小时的搜索如何使用作曲家,我终于设法让它工作。现在我遇到了下一个问题,如何从演示中获取结果。

我使用了文档页面上给出的示例代码。它确实提取了文本,但所有文本都在同一行。当我使用演示时,每个新页面都以新段落开头,并且每段文本都放在单独的行上。代码:

正如我所说,当我使用上面的代码时,我将所有文本放在一行上。我的问题是如何获得与演示页面上的脚本相同的结果?

0 投票
1 回答
789 浏览

java - 无法覆盖 PDFTextStripper.writeString(字符串文本,列表使用 c# 的 textPositions) 方法?

我正在使用 PdfBox 的 .net 进行解析以从 pdf 中提取文本以及文本位置。为此,在搜索时我发现了以下 java 代码:

我通过以下方式将其转换为 .net:

但是,我收到上述代码的编译错误:

错误 1 ​​方法“writeString”没有重载需要 2 个参数

错误 2 'PDFTextLocationStripper.writeString(java.lang.String, java.util.List)':找不到合适的方法来覆盖

那么,如何覆盖 writeString 方法以便可以提取文本和位置?

0 投票
0 回答
388 浏览

ios - 快速编写 PDF 文本解析器

我目前正在快速开发一个 pdf 文本解析器。我正在查看 PDFKittens 代码,并在将 CGPDFStringRef 作为参数的 stringwithpdfstring 方法(在 SimpleFont.m 中)中找到了这一点。

根据我的理解 *bytes 是一个 CChar,这个方法到底是什么迭代槽?当我将此代码翻译为 swift 时,我收到 Type UnsafePointer? 没有下标成员。 swift中那个目标c代码的等价物是什么......?

0 投票
0 回答
136 浏览

php - 如何使用 php 解析和重新生成 PDF

我想编辑 PDF 的某些部分并在编辑后以相同的格式重新生成它。我已经尝试过pdftk,但它不允许编辑只读标签。我成功解析了pdf,Smalot pdf parser但现在我不知道如何在解析后再次以相同的格式重新生成它?

提前谢谢!!!1

0 投票
0 回答
843 浏览

java - 使用java中的pdfbox将外部自定义字体加载到pdf文档中

我的目标是使用 PDFBox 读取具有非内置编码的内容。 PDF 文档字体属性 如图所示,我能够从 PDF 中提取所有类型为 TrueType 和 Encoding Built-in的字体的文本。结果,我得到了子编码文本,而不是Type1 类型和自定义编码的内容

我收到以下文字!

实际上,pdf 中的文本是 7.+13。描述反应

无论如何,我们可以使外部字体文件可用于 pdf 并强制 pdfbox 将这些文件加载​​到文档中,以便我们将获得 pdf 中存在的实际文本。

0 投票
2 回答
1796 浏览

python - PDFminer 空输出

在使用 pdfminer (pdf2txt.py)处理文件时,我收到了空输出:

谁能说这个文件有什么问题以及我可以做些什么来从中获取数据?

这是dumppdf.py docs/homericaeast.pdf输出:

0 投票
1 回答
2072 浏览

javascript - node.js 如何使用 url 作为 pdf-path 来使用 pdf2json

我正在使用 node.js 和 pdf2json 解析器来解析 pdf 文件。目前它正在使用本地 pdf 文件。但我试图通过 node.js 的 URL/HTTP 模块获取一个 pdf 文件,我想打开这个文件来解析它。

有没有可能解析/使用在线pdf?

所以 url 应该通过如下 url 给出:https://localhost:8080/?pdf=http://whale-cms.de/pdf.pdf

有没有办法在在线pdf/链接中解析它?

提前致谢。

0 投票
1 回答
752 浏览

php - 如何使用 Smalot/PDFParser 从 PHP 中的 PDF 文件中提取书签?

现在我正在使用 PHP 和 Laravel。我的目标是从上传的 PDF 文件(使用 Form 和 POST 方法)中提取尽可能多的信息,例如元数据(作者、标题等)、首页(封面)、每页的内容和可用章节(从书签)。

我目前正在使用此处提供的 smalot 的 PDF 解析器但文档仅涵盖了一些我已经从 PDF 文件中获得的基本示例。

问题:我目前的问题是提取这些书签以完成章节的要求。有谁知道如何使用这个特定的解析器提取这种类型的内容?

我目前的代码如下所示:

请注意,这只会产生如下所示的输出:

0 投票
1 回答
201 浏览

pdf - 从没有 XFA 表单的 PDF 文档中读取数据

我使用 iText 阅读包含 XFA 表单的 PDF 文档。我将其转换为 XML,从 XML 读取数据并将其插入数据库。但是,如果我在 PDF 中没有 XFA 表单,那么如何有效地从 PDF 中读取数据?

0 投票
2 回答
227 浏览

python - 使用 functools.partial 为 pdfquery 获取属性错误制作自定义过滤器

背景

我正在使用 pdfquery 来解析多个像这样的文件。

问题

我正在尝试编写一个通用的文件管理器函数,建立在pdfquery's docs中提到的自定义选择器的基础上,它可以将特定范围作为参数。因为this被引用了,所以我认为我可以通过使用提供部分函数来解决这个问题functools.partial(如下所示)

输入

但是当我这样做时,我得到以下属性错误;

输出

有没有办法解决这个问题?或者可能以其他方式为 pdfquery 编写可以接受参数的自定义选择器?