问题标签 [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 文本挖掘“扫描中:引用字符串中的 EOF”错误
我需要将文件夹中的 24 个 PDF 文件转换为 txt 文件,以便对它们进行语义分析。我看了看这个问题,然后从那里开始。但是,在第一次让代码工作之后,我改变了一些东西,现在我收到以下错误:
正因为如此,bodies
下面代码的变量中保存的只是一个 24 个空白的列表,我最终得到了 24 个空白文本文件(除了通过将 PDF 转换为 txt 创建的 24 个文本文件之外)。我不确定我做错了什么——在某一时刻,这段代码有效!
我已经查看了我可以找到的有关此错误的信息,但这些都与 相关read.csv
,并且他们建议的修复(设置white.space=TRUE
和quote=""
)不起作用。
这是代码(错误在第 20-23 行):
编辑:关于变量结果的更多信息bodies
:结果是一个 24 的列表,它采用以下形式(在 R Studio 控制台上,我不确定它的实际名称): bodys: list of 24 : List of 1 ..$ : chr(0) :List of 1 ..$ : chr(0) (重复 24 次)
但我终其一生都无法弄清楚为什么会这样——我认为这与这里chr(0)
发生的同样的事情有关——我绝对没有捕捉到所有的台词。
我已经尝试了我能想到的一切,甚至切换readLines()
到scan()
,并且我已经看过这是否会有所帮助。我什至换scan()
了read.table()
,但事实证明,它read.table()
本身就依赖scan
!所以......我被困住了,我只是在兜圈子。
python - TypeError:“PSLiteral”类型的参数不可迭代
我正在尝试使用我的 pdfform-scraper-script 删除一些隐藏的输入,然后再将其写入 csv 文件。但我不断收到标题中提到的错误。相关的代码是:
完整的错误(+输出)是:
ok
ok
回溯(最后一次调用):文件“C:\Python27\Scripts\test3.py”,第 37 行,在 elif '\n' 中的值:TypeError:'PSLiteral' 类型的参数不可迭代
有谁知道如何解决这个问题?
c# - 使用 iTextSharp 从存储在 LocalFolder 中的 PDF 中获取文本
我正在尝试从存储在 Windows Phone 8.1 应用程序的 localStorage 中的 PDF 中获取文本,但我总是收到 FileNotFoundException。
为了解释整个故事,我从在线资源获得了一个 PDF,我将它存储到一个名称与用户名相同的文件夹中(用户名是一个电子邮件地址,但我也尝试过不带 @ 符号),然后我想从 PDF 文件中获取一些文本。我使用 iTextSharp 并按照示例进行操作,但无法成功。当我将 PDF 发送到启动器时,使用 Acrobat Reader 等其他应用程序成功打开。
我的功能如下。我首先发送一个PDF Object,它有一个名为Path的属性,它存储在特定于用户用户名的文件夹中。然后我将 pdf 作为StorageFile Item 获取。当我创建调用构造函数的PDFReader时,我得到一个 FileNotFoundException。有谁知道或可以猜到可能是什么问题?iTextSharp 是否与 Windows Phone 8.1 兼容?
c# - PDF 到文本:iTextSharp:提取结果中的重复页面
提前致谢。
的背景:
我正在开发一个控制台应用程序,该应用程序从 pdf 文档的特定部分中提取数据。为此,我首先需要将该 pdf 转换为要使用的字符串。为此,我求助于 iTextSharp。pdf 布局为每页两列,因此我使用 SimpleTextExtractionStratgey()(我尝试了 iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();但发现它对页面布局无效)。
转换为文本的内容说明:
我似乎遇到问题的页面有一个“标题”张贴在页面的一侧。带有页眉的页面间歇性地分散在文档中。
页面布局图片:http: //postimg.org/image/b7i25v0g1/
问题:
似乎当它完成浏览页面上的列然后移动到该侧标题时。然后它会跳转到带有侧页眉的下一页,将其转换为文本,然后从遇到第一个页眉的页面顶部重新开始。
我最终会得到如下所示的文本:
第 1 页内容
第一个标题
第二个标题
第 1 页内容
第 2 页内容
等等
这是pdf:http ://www.filedropper.com/dd35-completeadventurer
我没有嫁给 iTextSharp 我只需要一种可靠的方法来将这种格式的文档转换为文本。解决方法或替代方法将不胜感激。
unix - PDFtoTEXT 未完全转换 UTF-8 编码文本,尤其是重音字符
我正在做一个需要将 PDF 转换为文本的项目。PDF 包含印地语字体(具体为 Mangal)和英语。
100% 的英语被转换成文本。印地语部分的转换率约为 95%。剩余的 5% 印地语文本要么以空白形式出现,要么像“ा”一样。我可以弄清楚重音字符没有正确转换为文本。
我正在使用以下代码:
PDF 使用以下字体
名称、类型、emb、sub、uni
ZDPKEY+Mangal,CID TrueType,是的,是的,是的
Mangal TrueType,不,不,不
Helvetica-Bold Type 1,不,不,不
CODUBM+Mangal-Bold,CID TrueType,是的,是的,是的
Mangal-Bold,TrueType,不,不,不
Times-Roman, Type 1 no, no, no
Helvetica,类型 1,不,不,不
以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文本:
我的问题是 5% 的缺失/垃圾字符是否可以用开源包在 Text 中正确捕获?非常感谢您的投入!
r - Mac中R中的PDF到文本
我已经在 mac 中下载了 PDFtoText 并编写了以下代码来将 pdf 文件转换为文本:
代码运行良好,但我无法在源目录中看到 my.txt,也无法将其保存在文件夹中的任何位置。我哪里出错了?
我的一位导师能够在他的计算机上运行相同的代码,并且能够看到转换后的 .txt 文件。
请指导。
c# - ITextSharp GetTextFromPage() 没有为 PdfVersion 52 '4' - 1.4 返回任何内容
我正在使用 ITextSharp 5.5.3.0 版,我正在尝试从 C# 中的 pdf 中提取文本。pdf是一种形式,而不是图像。这是代码:
返回的文本不可用。pdf 是使用 GhostScript 生成的。
有人对问题可能有什么建议吗?或者有什么建议?
java - 如何使用 PDDocument.loadNonSeq,大型 pdf 剥离器/解析文本技术
我对解析pdf和fd有一些疑问:
- 使用的目的是什么
PDDocument.loadNonSeq
包含临时/临时文件的方法?
- 我有很大的 pdf,我需要解析它并获取文本内容。我使用
PDDocument.load()
PDFTextStripper逐页提取数据(pdfstripper 已经得到setStartPage(n)
,setEndPage(n)
其中 n=n+1 每页循环)。使用 loadNonSeq 代替加载对内存更有效吗?
例如
此代码是否在正确的 loadNonSeq 使用之上,并且在没有大量内存的情况下每页阅读 PDF 页面是一种好习惯吗?我使用逐页阅读,因为我需要使用 DOM 内存在 XML 中编写文本(使用剥离技术,我决定为每个页面生成一个 XML)
python - 从 Python 运行 pdftotext
我正在尝试使用pdftotext
软件将 pdf 文档转换为文本文档。
我需要从 python 脚本调用这个应用程序 inc 命令提示符来转换文件。
我有以下代码:
当我运行此代码时,出现错误
你能帮忙pdftotext
从python调用应用程序将pdf转换为文本文件吗?
c# - 从图像中选择特定区域
是否有任何用于 winform 或 wpf 的 .net 免费库可以提供控制以选择图像中的特定区域,然后我们可以将这些区域保存为不同的图像。如果我们可以在图像上使用鼠标绘制网格,然后将该网格保存为单独的图像,那就太好了。