“pdf-parsing”的相关标签问题

0 投票

2 回答

1153 浏览

java - 如何使用 iText 解析未标记的 pdf 文件

我想用 iText解析这个文件（ http://www.bbm.ca/_documents/top_30_tv_programs_english/2011/nat01032011.pdf ）。问题是它没有标记，所以我无法获取 XML 文件。我决定从中提取文本，我认为例如第一行将是：

我为第一行提取的文本是

我使用以下方法提取了文本：

PDF 查看器如何知道加拿大在第二列而不是第三列。

我目前的解决方案是使用http://www.idrsolutions.com/online-pdf-to-html5-converter/将 pdf 文件转换为 html5 ，它可以确定每列的文本。

感谢您的答复

2014-01-25T19:43:09.303

0 投票

1 回答

799 浏览

pdf - PDF 变换矩阵有 50 个单位的缩放比例

我正在尝试突出显示字形宽度为 1000（对应于 1 个文本空间单位）和字体大小为 1 的一些文本；变换矩阵为 [50 0 0 50 0 0]。结果是文本太大。但这种情况并非如此。正在显示的文本一点也不大；这是一个正常的尺寸。

我打开文件时使用的任何 PDF 阅读器都可以突出显示该单词，这意味着我在某处遗漏了一些东西。

目前我正在检查字体字典中的默认字体和字体数组、字体大小和转换矩阵。除了我刚才提到的之外，还有其他方法可以在 PDF 中缩放文本吗？

pdf pdf-parsing

2014-02-12T11:48:12.900

0 投票

2 回答

4525 浏览

pdf - 解码 PDF 文档中的 FlateDecoded 文本部分

使用peepdf我正在分析两个简单的 pdf 文件。这两个文件都包含一行文本（“ZYXWVUTSRQQRSTUVWXYZ”），并且是在 Mac OS X 上创建的。

第一个文件是用 TextEdit 创建的。只有三个流，看第一个（用peepdf自动解码）清楚地显示文本。

第二个文件是用 MS Word 创建的。有四个流，但无法找到解码的文本。查看 Word 文档中的相应流不会显示解码的字符串：

对我来说，字符串在文件中的位置或此流中的信息的含义并不明显。有什么见解吗？

pdf ms-word deflate textedit pdf-parsing

2014-03-17T03:51:39.630

0 投票

0 回答

440 浏览

php - PHP：已解析的充满控制字符的 PDF 文件

我在解析这个 pdf 文件时遇到问题：

http://www.transperfect.com/sites/default/files/imported/pdf/Tokyo_Client_Services_Representative.pdf

在我对 FlateDecode 解码的 pdf 文件进行编码后，输出是这样的：

在此处输入图像描述

通常很容易解析内容，因为文本内容总是在打开的“（”和关闭的“）”括号内，但这个 pdf 文件让我头疼。括号内似乎只有控制字符。

我当前的输出如下：

在此处输入图像描述

这里有人对此有所了解吗？我究竟做错了什么？

php pdf control-characters pdf-parsing

2014-05-02T12:59:34.700

0 投票

1 回答

537 浏览

pdf - 对于线性化PDF，如何提前确定交叉引用流的长度？

生成线性化 PDF 时，交叉引用表应存储在文件的最开头。如果是交叉引用流，这意味着表的内容将被压缩，压缩后交叉引用流的实际大小是不可预测的。

所以我的问题是：如何提前确定这个交叉引用流的实际大小？如果流的实际大小是不可预测的，那么在对象的偏移量被写入流中并且流被写入文件之后，它会再次改变后面对象的实际偏移量，不是吗？我在这里想念什么吗？

任何提示表示赞赏。

pdf pdf-generation pdf-parsing

2014-06-04T18:45:56.923

0 投票

1 回答

15891 浏览

pdf - iTextSharp 4.1.6 和 5.x 版本之间的区别

我们正在开发一个与我们的系统一起使用的 Pdf 解析器。要求是，我们将所有信息存储在任何 pdf 文档上，并且应该能够复制该文档（对原始文档的更改最少）。

我们做了一些谷歌搜索，发现 iTextSharp 是我们的最佳伙伴。我们正在使用 .net 开发我们的项目。

您可能已经猜到了，正如我在标题中提到的需要比较特定版本的 iTextSharp（4.1.6 与 5.x）。我们知道 4.1.6 是具有 LGPL/MPL 许可证的 iTextSharp 的最后一个版本。5.x 版本是 AGPL。

在选择 LGPL 版本或购买 AGPL 许可证之前，我们希望在版本之间进行一个很好的比较（我们不喜欢发布我们的代码）。

我浏览了 iTextSharp 中的修订更改，但我想知道是否存在任何内容，以便在版本之间进行很好的比较。

提前致谢！

pdf licensing itextsharp itext pdf-parsing

2014-06-20T11:59:35.773

0 投票

1 回答

635 浏览

java - 使用 IText 解析 PDF 文件以在现有文本中添加超链接

我知道 PDF 不是用于编辑的，但我有一个要求，我需要解析 PDF 并对其进行修改以将所有文本元素转换为超链接。有没有办法做到这一点？

非常感谢，

java itext pdfbox pdf-parsing

2014-07-21T06:50:59.583

0 投票

1 回答

11239 浏览

python - 如何在数千个 PDF 文件中抓取表格？

我有大约 1'500 个 PDF，每个仅包含 1 页，并且具有相同的结构（例如，请参阅http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf）。

我正在寻找的是一种遍历所有这些文件的方法（如果可能，在本地）并提取表的实际内容（作为 CSV，存储到 SQLite DB 中，等等）。

我很想在 Node.js 中执行此操作，但找不到任何合适的库来解析此类内容。你知道吗？

如果在 Node.js 中不可能，如果有更好的方法可用，我也可以用 Python 编写代码。

python node.js parsing web-scraping pdf-parsing

2014-08-04T18:27:09.533

0 投票

1 回答

2716 浏览

c# - 如何使用 C# 检查非表单 PDF 上的复选框是否被选中？

使用 c#，我想查看是否在 PDF 页面上选中了特定复选框。PDF 文件不是表格文件。

PDF 可能类似于：在此处输入图像描述

示例文件在这里：MDS30ResidentP2.pdf （在这个示例文件中，我想以某种方式弄清楚问题 A1000 中的复选框“E”已被选中。同样：PDF 不是“表单”格式！）。

PS：以下帖子都没有解决我的问题：

c#pdf itextsharp pdf-parsing

2014-08-08T19:11:23.893

0 投票

2 回答

692 浏览

java - Reading PDF Literal String parsing dilemma

I have the following contents in the same PDF page, in different ObjectX:

First:

Very simple and basic so far...

The second:

NOTE: It is not noticeable in text above, but:

'H T M L E x a m p l e' is actually 0H0T0M0L0[32]0E0x0a0m0p0l0e where each 0 is a literal value 0 == ((char)0) so if I ignore all the 0 values, this actually turns to be like the upper example...

Some Bytes:

But in the next line I need to combine every two bytes into a char because of the following:

< ¬ ¬ ¬...> is actually <0[32][32]¬0[32][32]¬0[32][32]¬...> where the combination of [32]¬ is €</p>

The problem I'm facing is not the conversion itself I use: new String(sb.toString().getBytes("UTF-8"),"UTF-16BE")

The problem is to know when to apply it and when to keep the UTF-8.

== UPDATE ==

The font used for the problematic Object is:

There is no indication to the encoding type of the font.

== Update ==

As for the ToUnicode object, in the case of these font it is an unnecessary it should have been Identity-H but instead it is an X == X mapping here are some examples that goes from until FFFF:

So the mapping is not in the ToUnicode object, but still other renderers can render it well!

Any Ideas?

java pdf encoding character-encoding pdf-parsing

2014-10-14T00:47:23.137

问题标签 [pdf-parsing]

Reference