问题标签 [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何使用 iText 解析未标记的 pdf 文件
我想用 iText解析这个文件( http://www.bbm.ca/_documents/top_30_tv_programs_english/2011/nat01032011.pdf )。问题是它没有标记,所以我无法获取 XML 文件。我决定从中提取文本,我认为例如第一行将是:
我为第一行提取的文本是
我使用以下方法提取了文本:
PDF 查看器如何知道加拿大在第二列而不是第三列。
我目前的解决方案是使用http://www.idrsolutions.com/online-pdf-to-html5-converter/将 pdf 文件转换为 html5 ,它可以确定每列的文本。
感谢您的答复
pdf - PDF 变换矩阵有 50 个单位的缩放比例
我正在尝试突出显示字形宽度为 1000(对应于 1 个文本空间单位)和字体大小为 1 的一些文本;变换矩阵为 [50 0 0 50 0 0]。结果是文本太大。但这种情况并非如此。正在显示的文本一点也不大;这是一个正常的尺寸。
我打开文件时使用的任何 PDF 阅读器都可以突出显示该单词,这意味着我在某处遗漏了一些东西。
目前我正在检查字体字典中的默认字体和字体数组、字体大小和转换矩阵。除了我刚才提到的之外,还有其他方法可以在 PDF 中缩放文本吗?
pdf - 解码 PDF 文档中的 FlateDecoded 文本部分
使用peepdf我正在分析两个简单的 pdf 文件。这两个文件都包含一行文本(“ZYXWVUTSRQQRSTUVWXYZ”),并且是在 Mac OS X 上创建的。
第一个文件是用 TextEdit 创建的。只有三个流,看第一个(用peepdf自动解码)清楚地显示文本。
第二个文件是用 MS Word 创建的。有四个流,但无法找到解码的文本。查看 Word 文档中的相应流不会显示解码的字符串:
对我来说,字符串在文件中的位置或此流中的信息的含义并不明显。有什么见解吗?
php - PHP:已解析的充满控制字符的 PDF 文件
我在解析这个 pdf 文件时遇到问题:
在我对 FlateDecode 解码的 pdf 文件进行编码后,输出是这样的:
通常很容易解析内容,因为文本内容总是在打开的“(”和关闭的“)”括号内,但这个 pdf 文件让我头疼。括号内似乎只有控制字符。
我当前的输出如下:
这里有人对此有所了解吗?我究竟做错了什么 ?
pdf - 对于线性化PDF,如何提前确定交叉引用流的长度?
生成线性化 PDF 时,交叉引用表应存储在文件的最开头。如果是交叉引用流,这意味着表的内容将被压缩,压缩后交叉引用流的实际大小是不可预测的。
所以我的问题是:如何提前确定这个交叉引用流的实际大小?如果流的实际大小是不可预测的,那么在对象的偏移量被写入流中并且流被写入文件之后,它会再次改变后面对象的实际偏移量,不是吗?我在这里想念什么吗?
任何提示表示赞赏。
pdf - iTextSharp 4.1.6 和 5.x 版本之间的区别
我们正在开发一个与我们的系统一起使用的 Pdf 解析器。要求是,我们将所有信息存储在任何 pdf 文档上,并且应该能够复制该文档(对原始文档的更改最少)。
我们做了一些谷歌搜索,发现 iTextSharp 是我们的最佳伙伴。我们正在使用 .net 开发我们的项目。
您可能已经猜到了,正如我在标题中提到的需要比较特定版本的 iTextSharp(4.1.6 与 5.x)。我们知道 4.1.6 是具有 LGPL/MPL 许可证的 iTextSharp 的最后一个版本。5.x 版本是 AGPL。
在选择 LGPL 版本或购买 AGPL 许可证之前,我们希望在版本之间进行一个很好的比较(我们不喜欢发布我们的代码)。
我浏览了 iTextSharp 中的修订更改,但我想知道是否存在任何内容,以便在版本之间进行很好的比较。
提前致谢!
java - 使用 IText 解析 PDF 文件以在现有文本中添加超链接
我知道 PDF 不是用于编辑的,但我有一个要求,我需要解析 PDF 并对其进行修改以将所有文本元素转换为超链接。有没有办法做到这一点?
非常感谢,
python - 如何在数千个 PDF 文件中抓取表格?
我有大约 1'500 个 PDF,每个仅包含 1 页,并且具有相同的结构(例如,请参阅http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf)。
我正在寻找的是一种遍历所有这些文件的方法(如果可能,在本地)并提取表的实际内容(作为 CSV,存储到 SQLite DB 中,等等)。
我很想在 Node.js 中执行此操作,但找不到任何合适的库来解析此类内容。你知道吗?
如果在 Node.js 中不可能,如果有更好的方法可用,我也可以用 Python 编写代码。
c# - 如何使用 C# 检查非表单 PDF 上的复选框是否被选中?
使用 c#,我想查看是否在 PDF 页面上选中了特定复选框。PDF 文件不是表格文件。
PDF 可能类似于:
示例文件在这里:MDS30ResidentP2.pdf (在这个示例文件中,我想以某种方式弄清楚问题 A1000 中的复选框“E”已被选中。同样:PDF 不是“表单”格式!)。
PS:以下帖子都没有解决我的问题:
java - Reading PDF Literal String parsing dilemma
I have the following contents in the same PDF page, in different ObjectX:
First:
Very simple and basic so far...
The second:
NOTE: It is not noticeable in text above, but:
'H T M L E x a m p l e' is actually 0H0T0M0L0[32]0E0x0a0m0p0l0e where each 0 is a literal value 0 == ((char)0) so if I ignore all the 0 values, this actually turns to be like the upper example...
Some Bytes:
But in the next line I need to combine every two bytes into a char because of the following:
< ¬ ¬ ¬...> is actually <0[32][32]¬0[32][32]¬0[32][32]¬...> where the combination of [32]¬ is €</p>
The problem I'm facing is not the conversion itself I use: new String(sb.toString().getBytes("UTF-8"),"UTF-16BE")
The problem is to know when to apply it and when to keep the UTF-8.
== UPDATE ==
The font used for the problematic Object is:
There is no indication to the encoding type of the font.
== Update ==
As for the ToUnicode object, in the case of these font it is an unnecessary it should have been Identity-H but instead it is an X == X mapping here are some examples that goes from until FFFF:
So the mapping is not in the ToUnicode object, but still other renderers can render it well!
Any Ideas?