问题标签 [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 'Smalot PDF Parser' 结果:文本不在同一行
所以我安装了 PDF Parser ( http://www.pdfparser.org/ )。我检查了他们的网站并使用了演示。这给了我想要的结果。经过数小时的搜索如何使用作曲家,我终于设法让它工作。现在我遇到了下一个问题,如何从演示中获取结果。
我使用了文档页面上给出的示例代码。它确实提取了文本,但所有文本都在同一行。当我使用演示时,每个新页面都以新段落开头,并且每段文本都放在单独的行上。代码:
正如我所说,当我使用上面的代码时,我将所有文本放在一行上。我的问题是如何获得与演示页面上的脚本相同的结果?
java - 无法覆盖 PDFTextStripper.writeString(字符串文本,列表使用 c# 的 textPositions) 方法?
我正在使用 PdfBox 的 .net 进行解析以从 pdf 中提取文本以及文本位置。为此,在搜索时我发现了以下 java 代码:
我通过以下方式将其转换为 .net:
但是,我收到上述代码的编译错误:
错误 1 方法“writeString”没有重载需要 2 个参数
错误 2 'PDFTextLocationStripper.writeString(java.lang.String, java.util.List)':找不到合适的方法来覆盖
那么,如何覆盖 writeString 方法以便可以提取文本和位置?
ios - 快速编写 PDF 文本解析器
我目前正在快速开发一个 pdf 文本解析器。我正在查看 PDFKittens 代码,并在将 CGPDFStringRef 作为参数的 stringwithpdfstring 方法(在 SimpleFont.m 中)中找到了这一点。
根据我的理解 *bytes 是一个 CChar,这个方法到底是什么迭代槽?当我将此代码翻译为 swift 时,我收到 Type UnsafePointer? 没有下标成员。 swift中那个目标c代码的等价物是什么......?
php - 如何使用 php 解析和重新生成 PDF
我想编辑 PDF 的某些部分并在编辑后以相同的格式重新生成它。我已经尝试过pdftk
,但它不允许编辑只读标签。我成功解析了pdf,Smalot pdf parser
但现在我不知道如何在解析后再次以相同的格式重新生成它?
提前谢谢!!!1
python - PDFminer 空输出
在使用 pdfminer (pdf2txt.py)处理文件时,我收到了空输出:
谁能说这个文件有什么问题以及我可以做些什么来从中获取数据?
这是dumppdf.py docs/homericaeast.pdf
输出:
javascript - node.js 如何使用 url 作为 pdf-path 来使用 pdf2json
我正在使用 node.js 和 pdf2json 解析器来解析 pdf 文件。目前它正在使用本地 pdf 文件。但我试图通过 node.js 的 URL/HTTP 模块获取一个 pdf 文件,我想打开这个文件来解析它。
有没有可能解析/使用在线pdf?
所以 url 应该通过如下 url 给出:https://localhost:8080/?pdf=http://whale-cms.de/pdf.pdf
有没有办法在在线pdf/链接中解析它?
提前致谢。
php - 如何使用 Smalot/PDFParser 从 PHP 中的 PDF 文件中提取书签?
现在我正在使用 PHP 和 Laravel。我的目标是从上传的 PDF 文件(使用 Form 和 POST 方法)中提取尽可能多的信息,例如元数据(作者、标题等)、首页(封面)、每页的内容和可用章节(从书签)。
我目前正在使用此处提供的 smalot 的 PDF 解析器,但文档仅涵盖了一些我已经从 PDF 文件中获得的基本示例。
问题:我目前的问题是提取这些书签以完成章节的要求。有谁知道如何使用这个特定的解析器提取这种类型的内容?
我目前的代码如下所示:
请注意,这只会产生如下所示的输出:
pdf - 从没有 XFA 表单的 PDF 文档中读取数据
我使用 iText 阅读包含 XFA 表单的 PDF 文档。我将其转换为 XML,从 XML 读取数据并将其插入数据库。但是,如果我在 PDF 中没有 XFA 表单,那么如何有效地从 PDF 中读取数据?
python - 使用 functools.partial 为 pdfquery 获取属性错误制作自定义过滤器
背景
我正在使用 pdfquery 来解析多个像这样的文件。
问题
我正在尝试编写一个通用的文件管理器函数,建立在pdfquery's docs中提到的自定义选择器的基础上,它可以将特定范围作为参数。因为this
被引用了,所以我认为我可以通过使用提供部分函数来解决这个问题functools.partial
(如下所示)
输入
但是当我这样做时,我得到以下属性错误;
输出
有没有办法解决这个问题?或者可能以其他方式为 pdfquery 编写可以接受参数的自定义选择器?