问题标签 [pdf-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - iTextSharp PDF 使用 C# 读取突出显示的文本(突出显示注释)
我正在开发一个将 pdf 内容转换为文本的 C# winform 应用程序。除了在 pdf 的突出显示文本中找到的内容外,所有必需的内容都被提取出来。请帮助获取工作示例以提取 pdf 中的突出显示文本。我在项目中使用 iTextSharp.dll
pdf-scraping - 如何从网站下载链接的pdf文件?
我想从一个站点下载数百个 pdf 文档。我已经尝试过 SiteSucker 和类似工具,但它不起作用,因为文件和链接到它们的页面之间似乎存在一些“分离”。我不知道如何用更好的方式来描述这一点,因为我对网站编程或抓取知之甚少。关于这可能是什么以及如何规避它的任何建议?
更具体地说,我正在尝试下载联合国决议的 pdf,存储在这样的页面上:http ://www.un.org/depts/dhl/resguide/r53_en.shtml
联合国网站上似乎有一个内置的“搜索功能”,这使得像 SiteSucker 这样的虚拟抓取无法按预期工作。
还有其他我可以使用的工具吗?
python - How to read line by line in pdf file and create a CSV
Here is my pdf
I found THIS and I used it to scrap my pdf.
Its pretty mixed up. or Is is because the PDF is formatted in a way which is unreadable? I thought there was a way I could scrap each row and create a CSV with the columns by iteration or something.
Like populate a CSV with columns
Is there a way around this?
c# - 第二次无法点击锚标签
我正在编写一个抓取程序。
我第一次能够单击锚标签,但是一旦我再次循环,就不会发生这种情况。我已经在 IE 的 Watin 实例中做到了这一点。我怀疑这是因为我所做的 IE 实例的背面。
请找到这两段代码。
下载PDF的方法
另一种方法,其中我无法点击锚标记,也无法引发 onclick 事件。
可以请人帮助我,第二种方法第一次效果很好,但第二次不行。我对 IE 实例有疑问,因为我尝试过更多的睡眠时间,并且它能够进入循环但无法单击链接。
提前致谢
r - 就像从 html 或 json 从 web 上抓取数据一样,是否可以使用 R 在 pdf 中完成相同的操作?
我想将研究文章(pdf文件)中的表格和类似表格的数据导入R。
示例: http: //www.bioconductor.org/packages/release/bioc/vignettes/DESeq/inst/doc/DESeq.pdf
这就是这里作为例子的pdf。简单的表开始。pdf 文件的第 6 页我截取了屏幕截图以了解该场景。
如何提取该表?
python - 如何在 Python 中解锁“安全”(读保护)PDF?
在 Python 中,我使用pdfminer从 pdf 中读取文本,并使用此消息下方的代码。我现在收到一条错误消息:
当我用 Acrobat Pro 打开这个 pdf 文件时,发现它是安全的(或“读保护”)。然而,从这个链接中,我了解到有许多服务可以轻松禁用这种读取保护(例如pdfunlock.com。当深入研究 pdfminer 的源代码时,我看到上面的错误是在这些行上生成的。
由于有许多服务可以在一秒钟内禁用这种读保护,我认为这很容易做到。看起来这.is_extractable
是一个简单的属性doc
,但我不认为它像更改.is_extractable
为 True..那样简单。
有人知道如何使用 Python 禁用 pdf 的读取保护吗?欢迎所有提示!
=================================================
您将在下面找到我目前从非读保护中提取文本的代码。
python - 从 PDF python 中提取/识别表格
是否有任何支持表格识别和提取的开源库?
我的意思是:
- 识别表结构存在
- 根据内容对表格进行分类
- 以有用的输出格式从表中提取数据,例如 JSON / CSV 等。
我查看了有关此主题的类似问题,发现以下内容:
- PDFMiner解决了问题 3,但似乎用户需要向 PDFMiner 指定每个表存在表结构的位置(如果我错了,请纠正我)
- pdf-table-extract试图解决问题 1 但根据待办事项列表,目前无法识别由空格分隔的表。这是一个问题,因为我的 PDF 中的所有表格都由空格分隔!
目前,我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表结构。因此,任何替代方法都将受到欢迎!
java - 从 PDF 文档中提取数据
我有一个 PDF 文件。
它包含表格格式的数据。我想使用逗号作为列分隔符将数据提取到逗号分隔的文本文件中。
有什么建议么?
image - 解码从 PDF 文件中剥离的 JPEG 图像
我有解压缩成jpgs
位图的代码,它适用于 JPEG 文件,但是当我将代码提供为 JPEG 时,我直接从 PDF 中剥离了XObject
我得到的错误。
Adobe 阅读器可以很好地显示图像,所以我不认为它已损坏。我已经阅读了JPEG
文档PDFs
,没有发现任何明显的问题。
我的问题是,嵌入在 PDF 流中的“JPEG”和普通的 JPEG 有什么不同吗?如果是这样,那是什么?
注意:我可以手动打开 PDF,复制图像,粘贴到绘画中,然后保存……当我这样做时,一切正常……我的问题是我需要这个自动化。
当我的代码解析 PDF、剥离图像流、将二进制文件转储到文件中,然后我尝试打开该文件时,它不起作用。我错过了什么?
我的错误似乎发生在霍夫曼解码过程中,cdt
和Huffman
表似乎读得很好。
python - pdf2txt.py 不执行命令
每当我在命令行上使用 pdf2txt.py 时,源文件都会打开并且命令不会执行。我刚刚安装了这些软件包,但无法让它运行。例如,我将键入命令:
输入命令后,文件 pdf2txt.py 将打开,命令不会执行。有没有人遇到过这个?我究竟做错了什么?
我正在使用 Windows 命令提示符。任何帮助将不胜感激。