问题标签 [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
374 浏览

r - 文本挖掘“扫描中:引用字符串中的 EOF”错误

我需要将文件夹中的 24 个 PDF 文件转换为 txt 文件,以便对它们进行语义分析。我看了看这个问题,然后从那里开始。但是,在第一次让代码工作之后,我改变了一些东西,现在我收到以下错误:

正因为如此,bodies下面代码的变量中保存的只是一个 24 个空白的列表,我最终得到了 24 个空白文本文件(除了通过将 PDF 转换为 txt 创建的 24 个文本文件之外)。我不确定我做错了什么——在某一时刻,这段代码有效!

我已经查看了我可以找到的有关此错误的信息,但这些都与 相关read.csv,并且他们建议的修复(设置white.space=TRUEquote="")不起作用。

这是代码(错误在第 20-23 行):

编辑:关于变量结果的更多信息bodies:结果是一个 24 的列表,它采用以下形式(在 R Studio 控制台上,我不确定它的实际名称): bodys: list of 24 : List of 1 ..$ : chr(0) :List of 1 ..$ : chr(0) (重复 24 次)

但我终其一生都无法弄清楚为什么会这样——我认为这与这里chr(0)发生的同样的事情有关——我绝对没有捕捉到所有的台词。

我已经尝试了我能想到的一切,甚至切换readLines()scan(),并且我已经看过这是否会有所帮助。我什至换scan()read.table(),但事实证明,它read.table()本身就依赖scan!所以......我被困住了,我只是在兜圈子。

0 投票
1 回答
1766 浏览

python - TypeError:“PSLiteral”类型的参数不可迭代

我正在尝试使用我的 pdfform-scraper-script 删除一些隐藏的输入,然后再将其写入 csv 文件。但我不断收到标题中提到的错误。相关的代码是:

完整的错误(+输出)是:
ok
ok

回溯(最后一次调用):文件“C:\Python27\Scripts\test3.py”,第 37 行,在 elif '\n' 中的值:TypeError:'PSLiteral' 类型的参数不可迭代

有谁知道如何解决这个问题?

0 投票
1 回答
533 浏览

c# - 使用 iTextSharp 从存储在 LocalFolder 中的 PDF 中获取文本

我正在尝试从存储在 Windows Phone 8.1 应用程序的 localStorage 中的 PDF 中获取文本,但我总是收到 FileNotFoundException。

为了解释整个故事,我从在线资源获得了一个 PDF,我将它存储到一个名称与用户名相同的文件夹中(用户名是一个电子邮件地址,但我也尝试过不带 @ 符号),然后我想从 PDF 文件中获取一些文本。我使用 iTextSharp 并按照示例进行操作,但无法成功。当我将 PDF 发送到启动器时,使用 Acrobat Reader 等其他应用程序成功打开。

我的功能如下。我首先发送一个PDF Object,它有一个名为Path的属性,它存储在特定于用户用户名的文件夹中。然后我将 pdf 作为StorageFile Item 获取。当我创建调用构造函数的PDFReader时,我得到一个 FileNotFoundException。有谁知道或可以猜到可能是什么问题?iTextSharp 是否与 Windows Phone 8.1 兼容?

0 投票
2 回答
1862 浏览

c# - PDF 到文本:iTextSharp:提取结果中的重复页面

提前致谢。

的背景:

我正在开发一个控制台应用程序,该应用程序从 pdf 文档的特定部分中提取数据。为此,我首先需要将该 pdf 转换为要使用的字符串。为此,我求助于 iTextSharp。pdf 布局为每页两列,因此我使用 SimpleTextExtractionStratgey()(我尝试了 iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();但发现它对页面布局无效)。

转换为文本的内容说明:

我似乎遇到问题的页面有一个“标题”张贴在页面的一侧。带有页眉的页面间歇性地分散在文档中。

页面布局图片:http: //postimg.org/image/b7i25v0g1/

问题:

似乎当它完成浏览页面上的列然后移动到该侧标题时。然后它会跳转到带有侧页眉的下一页,将其转换为文本,然后从遇到第一个页眉的页面顶部重新开始。

我最终会得到如下所示的文本:

第 1 页内容

第一个标题

第二个标题

第 1 页内容

第 2 页内容

等等

这是pdf:http ://www.filedropper.com/dd35-completeadventurer

我没有嫁给 iTextSharp 我只需要一种可靠的方法来将这种格式的文档转换为文本。解决方法或替代方法将不胜感激。

0 投票
1 回答
1492 浏览

unix - PDFtoTEXT 未完全转换 UTF-8 编码文本,尤其是重音字符

我正在做一个需要将 PDF 转换为文本的项目。PDF 包含印地语字体(具体为 Mangal)和英语。

100% 的英语被转换成文本。印地语部分的转换率约为 95%。剩余的 5% 印地语文本要么以空白形式出现,要么像“ा”一样。我可以弄清楚重音字符没有正确转换为文本。

我正在使用以下代码:

PDF 使用以下字体

名称、类型、emb、sub、uni

ZDPKEY+Mangal,CID TrueType,是的,是的,是的

Mangal TrueType,不,不,不

Helvetica-Bold Type 1,不,不,不

CODUBM+Mangal-Bold,CID TrueType,是的,是的,是的

Mangal-Bold,TrueType,不,不,不

Times-Roman, Type 1 no, no, no

Helvetica,类型 1,不,不,不

以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文本:

我的问题是 5% 的缺失/垃圾字符是否可以用开源包在 Text 中正确捕获?非常感谢您的投入!

0 投票
1 回答
1651 浏览

r - Mac中R中的PDF到文本

我已经在 mac 中下载了 PDFtoText 并编写了以下代码来将 pdf 文件转换为文本:

代码运行良好,但我无法在源目录中看到 my.txt,也无法将其保存在文件夹中的任何位置。我哪里出错了?

我的一位导师能够在他的计算机上运行相同的代码,并且能够看到转换后的 .txt 文件。

请指导。

0 投票
0 回答
366 浏览

c# - ITextSharp GetTextFromPage() 没有为 PdfVersion 52 '4' - 1.4 返回任何内容

我正在使用 ITextSharp 5.5.3.0 版,我正在尝试从 C# 中的 pdf 中提取文本。pdf是一种形式,而不是图像。这是代码:

返回的文本不可用。pdf 是使用 GhostScript 生成的。

有人对问题可能有什么建议吗?或者有什么建议?

0 投票
1 回答
2906 浏览

java - 如何使用 PDDocument.loadNonSeq,大型 pdf 剥离器/解析文本技术

我对解析pdf和fd有一些疑问:

  1. 使用的目的是什么

PDDocument.loadNonSeq包含临时/临时文件的方法?

  1. 我有很大的 pdf,我需要解析它并获取文本内容。我使用PDDocument.load()PDFTextStripper页提取数据(pdfstripper 已经得到setStartPage(n)setEndPage(n) 其中 n=n+1 每页循环)。使用 loadNonSeq 代替加载对内存更有效吗?

例如

此代码是否在正确的 loadNonSeq 使用之上,并且在没有大量内存的情况下每页阅读 PDF 页面是一种好习惯吗?我使用逐页阅读,因为我需要使用 DOM 内存在 XML 中编写文本(使用剥离技术,我决定为每个页面生成一个 XML)

0 投票
1 回答
4256 浏览

python - 从 Python 运行 pdftotext

我正在尝试使用pdftotext软件将 pdf 文档转换为文本文档。

我需要从 python 脚本调用这个应用程序 inc 命令提示符来转换文件。

我有以下代码:

当我运行此代码时,出现错误

你能帮忙pdftotext从python调用应用程序将pdf转换为文本文件吗?

0 投票
1 回答
1309 浏览

c# - 从图像中选择特定区域

是否有任何用于 winform 或 wpf 的 .net 免费库可以提供控制以选择图像中的特定区域,然后我们可以将这些区域保存为不同的图像。如果我们可以在图像上使用鼠标绘制网格,然后将该网格保存为单独的图像,那就太好了。