问题标签 [pdf-parsing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

153 问题

0 投票

1 回答

1933 浏览

php - 'Smalot PDF Parser' 结果：文本不在同一行

所以我安装了 PDF Parser ( http://www.pdfparser.org/ )。我检查了他们的网站并使用了演示。这给了我想要的结果。经过数小时的搜索如何使用作曲家，我终于设法让它工作。现在我遇到了下一个问题，如何从演示中获取结果。

我使用了文档页面上给出的示例代码。它确实提取了文本，但所有文本都在同一行。当我使用演示时，每个新页面都以新段落开头，并且每段文本都放在单独的行上。代码：

正如我所说，当我使用上面的代码时，我将所有文本放在一行上。我的问题是如何获得与演示页面上的脚本相同的结果？

php pdf pdf-parsing

2017-01-09T15:01:00.583

0 投票

1 回答

789 浏览

java - 无法覆盖 PDFTextStripper.writeString（字符串文本，列表使用 c# 的 textPositions) 方法？

我正在使用 PdfBox 的 .net 进行解析以从 pdf 中提取文本以及文本位置。为此，在搜索时我发现了以下 java 代码：

我通过以下方式将其转换为 .net：

但是，我收到上述代码的编译错误：

错误 1 方法“writeString”没有重载需要 2 个参数

错误 2 'PDFTextLocationStripper.writeString(java.lang.String, java.util.List)'：找不到合适的方法来覆盖

那么，如何覆盖 writeString 方法以便可以提取文本和位置？

java c#pdfbox ikvm pdf-parsing

2017-01-10T09:13:33.910

0 投票

0 回答

388 浏览

ios - 快速编写 PDF 文本解析器

我目前正在快速开发一个 pdf 文本解析器。我正在查看 PDFKittens 代码，并在将 CGPDFStringRef 作为参数的 stringwithpdfstring 方法（在 SimpleFont.m 中）中找到了这一点。

根据我的理解 *bytes 是一个 CChar，这个方法到底是什么迭代槽？当我将此代码翻译为 swift 时，我收到 Type UnsafePointer? 没有下标成员。 swift中那个目标c代码的等价物是什么......？

ios swift pdf pdf-parsing cgpdf

2017-01-17T15:34:24.777

0 投票

0 回答

136 浏览

php - 如何使用 php 解析和重新生成 PDF

我想编辑 PDF 的某些部分并在编辑后以相同的格式重新生成它。我已经尝试过pdftk，但它不允许编辑只读标签。我成功解析了pdf，Smalot pdf parser但现在我不知道如何在解析后再次以相同的格式重新生成它？

提前谢谢！！！1

php pdftk pdf-parsing

2017-02-13T06:00:20.157

0 投票

0 回答

843 浏览

java - 使用java中的pdfbox将外部自定义字体加载到pdf文档中

我的目标是使用 PDFBox 读取具有非内置编码的内容。如图所示，我能够从 PDF 中提取所有类型为 TrueType 和 Encoding Built-in的字体的文本。结果，我得到了子编码文本，而不是Type1 类型和自定义编码的内容

我收到以下文字！

实际上，pdf 中的文本是 7.+13。描述反应

无论如何，我们可以使外部字体文件可用于 pdf 并强制 pdfbox 将这些文件加载到文档中，以便我们将获得 pdf 中存在的实际文本。

java pdfbox truetype custom-font pdf-parsing

2017-04-18T05:22:03.257

0 投票

2 回答

1796 浏览

python - PDFminer 空输出

在使用 pdfminer (pdf2txt.py)处理文件时，我收到了空输出：

谁能说这个文件有什么问题以及我可以做些什么来从中获取数据？

这是dumppdf.py docs/homericaeast.pdf输出：

python pdf pdfminer pdf-parsing

2017-05-07T14:10:28.203

0 投票

1 回答

2072 浏览

javascript - node.js 如何使用 url 作为 pdf-path 来使用 pdf2json

我正在使用 node.js 和 pdf2json 解析器来解析 pdf 文件。目前它正在使用本地 pdf 文件。但我试图通过 node.js 的 URL/HTTP 模块获取一个 pdf 文件，我想打开这个文件来解析它。

有没有可能解析/使用在线pdf？

所以 url 应该通过如下 url 给出：https://localhost:8080/?pdf=http://whale-cms.de/pdf.pdf

有没有办法在在线pdf/链接中解析它？

提前致谢。

javascript node.js parsing pdf pdf-parsing

2017-07-12T10:27:55.583

0 投票

1 回答

752 浏览

php - 如何使用 Smalot/PDFParser 从 PHP 中的 PDF 文件中提取书签？

现在我正在使用 PHP 和 Laravel。我的目标是从上传的 PDF 文件（使用 Form 和 POST 方法）中提取尽可能多的信息，例如元数据（作者、标题等）、首页（封面）、每页的内容和可用章节（从书签）。

我目前正在使用此处提供的 smalot 的 PDF 解析器，但文档仅涵盖了一些我已经从 PDF 文件中获得的基本示例。

问题：我目前的问题是提取这些书签以完成章节的要求。有谁知道如何使用这个特定的解析器提取这种类型的内容？

我目前的代码如下所示：

请注意，这只会产生如下所示的输出：

php laravel parsing pdf pdf-parsing

2017-08-04T10:30:39.283

0 投票

1 回答

201 浏览

pdf - 从没有 XFA 表单的 PDF 文档中读取数据

我使用 iText 阅读包含 XFA 表单的 PDF 文档。我将其转换为 XML，从 XML 读取数据并将其插入数据库。但是，如果我在 PDF 中没有 XFA 表单，那么如何有效地从 PDF 中读取数据？

pdf itext pdf-parsing

2017-08-09T08:53:14.403

0 投票

2 回答

227 浏览

python - 使用 functools.partial 为 pdfquery 获取属性错误制作自定义过滤器

背景

我正在使用 pdfquery 来解析多个像这样的文件。

问题

我正在尝试编写一个通用的文件管理器函数，建立在pdfquery's docs中提到的自定义选择器的基础上，它可以将特定范围作为参数。因为this被引用了，所以我认为我可以通过使用提供部分函数来解决这个问题functools.partial（如下所示）

输入

但是当我这样做时，我得到以下属性错误；

输出

有没有办法解决这个问题？或者可能以其他方式为 pdfquery 编写可以接受参数的自定义选择器？

python python-3.x pdf functools pdf-parsing

2017-08-24T18:40:27.780

1 2 3 4 5 6 7 8 9 10