“pdftotext”的相关标签问题

0 投票

0 回答

374 浏览

r - 文本挖掘“扫描中：引用字符串中的 EOF”错误

我需要将文件夹中的 24 个 PDF 文件转换为 txt 文件，以便对它们进行语义分析。我看了看这个问题，然后从那里开始。但是，在第一次让代码工作之后，我改变了一些东西，现在我收到以下错误：

正因为如此，bodies下面代码的变量中保存的只是一个 24 个空白的列表，我最终得到了 24 个空白文本文件（除了通过将 PDF 转换为 txt 创建的 24 个文本文件之外）。我不确定我做错了什么——在某一时刻，这段代码有效！

我已经查看了我可以找到的有关此错误的信息，但这些都与相关read.csv，并且他们建议的修复（设置white.space=TRUE和quote=""）不起作用。

这是代码（错误在第 20-23 行）：

编辑：关于变量结果的更多信息bodies：结果是一个 24 的列表，它采用以下形式（在 R Studio 控制台上，我不确定它的实际名称）： bodys: list of 24 ： List of 1 ..$ : chr(0) :List of 1 ..$ : chr(0) （重复 24 次）

但我终其一生都无法弄清楚为什么会这样——我认为这与这里chr(0)发生的同样的事情有关——我绝对没有捕捉到所有的台词。

我已经尝试了我能想到的一切，甚至切换readLines()到scan()，并且我已经看过这是否会有所帮助。我什至换scan()了read.table()，但事实证明，它read.table()本身就依赖scan！所以......我被困住了，我只是在兜圈子。

r text-mining tm pdftotext

2015-07-06T23:26:50.240

0 投票

1 回答

1766 浏览

python - TypeError：“PSLiteral”类型的参数不可迭代

我正在尝试使用我的 pdfform-scraper-script 删除一些隐藏的输入，然后再将其写入 csv 文件。但我不断收到标题中提到的错误。相关的代码是：

完整的错误（+输出）是：
ok
ok

回溯（最后一次调用）：文件“C:\Python27\Scripts\test3.py”，第 37 行，在 elif '\n' 中的值：TypeError：'PSLiteral' 类型的参数不可迭代

有谁知道如何解决这个问题？

python csv data-cleaning pdftotext

2015-07-22T14:16:01.320

0 投票

1 回答

533 浏览

c# - 使用 iTextSharp 从存储在 LocalFolder 中的 PDF 中获取文本

我正在尝试从存储在 Windows Phone 8.1 应用程序的 localStorage 中的 PDF 中获取文本，但我总是收到 FileNotFoundException。

为了解释整个故事，我从在线资源获得了一个 PDF，我将它存储到一个名称与用户名相同的文件夹中（用户名是一个电子邮件地址，但我也尝试过不带 @ 符号），然后我想从 PDF 文件中获取一些文本。我使用 iTextSharp 并按照示例进行操作，但无法成功。当我将 PDF 发送到启动器时，使用 Acrobat Reader 等其他应用程序成功打开。

我的功能如下。我首先发送一个PDF Object，它有一个名为Path的属性，它存储在特定于用户用户名的文件夹中。然后我将 pdf 作为StorageFile Item 获取。当我创建调用构造函数的PDFReader时，我得到一个 FileNotFoundException。有谁知道或可以猜到可能是什么问题？iTextSharp 是否与 Windows Phone 8.1 兼容？

c#windows-phone-8.1 itextsharp pdftotext

2015-07-24T12:10:15.767

0 投票

2 回答

1862 浏览

c# - PDF 到文本：iTextSharp：提取结果中的重复页面

提前致谢。

的背景：

我正在开发一个控制台应用程序，该应用程序从 pdf 文档的特定部分中提取数据。为此，我首先需要将该 pdf 转换为要使用的字符串。为此，我求助于 iTextSharp。pdf 布局为每页两列，因此我使用 SimpleTextExtractionStratgey()（我尝试了 iTextSharp.text.pdf.parser.LocationTextExtractionStrategy()；但发现它对页面布局无效）。

转换为文本的内容说明：

我似乎遇到问题的页面有一个“标题”张贴在页面的一侧。带有页眉的页面间歇性地分散在文档中。

页面布局图片：http: //postimg.org/image/b7i25v0g1/

问题：

似乎当它完成浏览页面上的列然后移动到该侧标题时。然后它会跳转到带有侧页眉的下一页，将其转换为文本，然后从遇到第一个页眉的页面顶部重新开始。

我最终会得到如下所示的文本：

第 1 页内容

第一个标题

第二个标题

第 1 页内容

第 2 页内容

等等

这是pdf：http ://www.filedropper.com/dd35-completeadventurer

我没有嫁给 iTextSharp 我只需要一种可靠的方法来将这种格式的文档转换为文本。解决方法或替代方法将不胜感激。

c#.net pdf itextsharp pdftotext

2015-07-27T20:25:59.540

0 投票

1 回答

1492 浏览

unix - PDFtoTEXT 未完全转换 UTF-8 编码文本，尤其是重音字符

我正在做一个需要将 PDF 转换为文本的项目。PDF 包含印地语字体（具体为 Mangal）和英语。

100% 的英语被转换成文本。印地语部分的转换率约为 95%。剩余的 5% 印地语文本要么以空白形式出现，要么像“ा”一样。我可以弄清楚重音字符没有正确转换为文本。

我正在使用以下代码：

PDF 使用以下字体

名称、类型、emb、sub、uni

ZDPKEY+Mangal，CID TrueType，是的，是的，是的

Mangal TrueType，不，不，不

Helvetica-Bold Type 1，不，不，不

CODUBM+Mangal-Bold，CID TrueType，是的，是的，是的

Mangal-Bold，TrueType，不，不，不

Times-Roman, Type 1 no, no, no

Helvetica，类型 1，不，不，不

以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文本：

我的问题是 5% 的缺失/垃圾字符是否可以用开源包在 Text 中正确捕获？非常感谢您的投入！

unix pdftotext xpdf

2015-09-08T15:51:52.553

0 投票

1 回答

1651 浏览

r - Mac中R中的PDF到文本

我已经在 mac 中下载了 PDFtoText 并编写了以下代码来将 pdf 文件转换为文本：

代码运行良好，但我无法在源目录中看到 my.txt，也无法将其保存在文件夹中的任何位置。我哪里出错了？

我的一位导师能够在他的计算机上运行相同的代码，并且能够看到转换后的 .txt 文件。

请指导。

r tm pdftotext

2015-09-09T06:52:50.313

0 投票

0 回答

366 浏览

c# - ITextSharp GetTextFromPage() 没有为 PdfVersion 52 '4' - 1.4 返回任何内容

我正在使用 ITextSharp 5.5.3.0 版，我正在尝试从 C# 中的 pdf 中提取文本。pdf是一种形式，而不是图像。这是代码：

返回的文本不可用。pdf 是使用 GhostScript 生成的。

有人对问题可能有什么建议吗？或者有什么建议？

c#itextsharp pdftotext

2015-09-23T10:37:39.507

0 投票

1 回答

2906 浏览

java - 如何使用 PDDocument.loadNonSeq，大型 pdf 剥离器/解析文本技术

我对解析pdf和fd有一些疑问：

使用的目的是什么

PDDocument.loadNonSeq包含临时/临时文件的方法？

我有很大的 pdf，我需要解析它并获取文本内容。我使用PDDocument.load()PDFTextStripper逐页提取数据（pdfstripper 已经得到setStartPage(n)，setEndPage(n) 其中 n=n+1 每页循环）。使用 loadNonSeq 代替加载对内存更有效吗？

例如

此代码是否在正确的 loadNonSeq 使用之上，并且在没有大量内存的情况下每页阅读 PDF 页面是一种好习惯吗？我使用逐页阅读，因为我需要使用 DOM 内存在 XML 中编写文本（使用剥离技术，我决定为每个页面生成一个 XML）

java pdf pdfbox pdftotext

2015-10-09T08:45:20.200

0 投票

1 回答

4256 浏览

python - 从 Python 运行 pdftotext

我正在尝试使用pdftotext软件将 pdf 文档转换为文本文档。

我需要从 python 脚本调用这个应用程序 inc 命令提示符来转换文件。

我有以下代码：

当我运行此代码时，出现错误

你能帮忙pdftotext从python调用应用程序将pdf转换为文本文件吗？

python windows subprocess pdftotext

2015-10-23T08:28:22.053

0 投票

1 回答

1309 浏览

c# - 从图像中选择特定区域

是否有任何用于 winform 或 wpf 的 .net 免费库可以提供控制以选择图像中的特定区域，然后我们可以将这些区域保存为不同的图像。如果我们可以在图像上使用鼠标绘制网格，然后将该网格保存为单独的图像，那就太好了。

c#.net image winforms pdftotext

2015-11-09T13:43:59.570

问题标签 [pdftotext]

Reference