问题标签 [pdfminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python PDFMIner - PDF 到 CSV
我希望能够将 PDF 转换为 CSV 文件,并找到了几个有用的脚本,但是作为 Python 新手,我有一个问题:
您在哪里指定要打印到的 PDF 和 CSV 的文件路径?
我正在使用 Python 2.7.11 和 PDFMiner 20140328。
jquery - PDFQuery:获取元素所在的页码
这是我第一次使用PDFQuery来抓取 PDF。
我需要做的是从有几页的价目表中获取价格,我想将产品代码提供给 PDFQuery,它应该找到代码并在它旁边返回价格。问题是使用 Github 页面上的第一个示例获取文本的位置,但它清楚地表示“请注意,我们不必知道名称在页面上的位置,或者它在哪个页面上”。我的价目表就是这种情况,但是所有其他示例都指定了页码(LTPage[pageid=1]
),但我看不到我们从哪里得到页码。
如果我不指定页码,它会为所有页面返回同一位置的所有文本。
另外,我添加了一个exactText
函数,因为代码可能是,例如,“92005”、“92005C”、“92005G”,所以:contains
单独使用并没有多大帮助。
我尝试选择元素所在的页面,并使用 JQuery .closest
,但都没有运气。
我检查了PDFMiner 文档 和PyQuery 文档 ,但我没有看到任何对我有帮助的东西 =(
我的代码现在看起来像这样:
任何帮助都非常感谢,伙计们和女孩们!!!
python - 我想使用 PDFminer 将文本从 PDF 提取到 .text 文件。我找到了代码,但我不知道如何使用它
这是我在这里某处找到的代码。我不知道如何使用它。有人可以帮我完成这个并帮助我转换样本 pdf 吗?
python - 在python中从具有特定标题的PDF中提取数据
我想用python解析PDF文件。我已经看到 PDFMiner 的示例无法解释我的要求。
例如,如果我想解析一份简历,它包含各种字段,如摘要、经验和爱好。
我有兴趣只提取经验,这个经验字段将在第一位或第二位或任何地方,我需要确定经验字段的位置并需要提取数据。
我怎样才能做到这一点?
python - Losing information when extracting text from PDF using PDFMiner
I'm using Python 3.4 on Windows 7 and hoping I can extract text from PDF files using PDFMiner. However, losing information was quite common when I was testing. For some files, it may be just a matter of a few sentences. But I've encountered situations where half of the text could not be extracted, depending on the file format. Here's my full code:
I wonder if there's a way to extract the full text using PDFMiner. I've heard of poppler, but I can't seem to find how to use it as a Python library. Besides, I don't want to use the command line. Can anyone help?
Here's an example: a thesis. Several paragraphs were lost when extracting using the code above. Like in the 2nd page, I could only extract first half of the page until "Pereira, Tishby, and Lee (1993)" at the middle. Then it just skip right to the next page for no apparent reason.
python - 即使在 Python 中尝试使用 pdfminer、pdf2txt、textract 也无法将 pdf 转换为文本
我无法从最初从 InDesign 和 Illustrator 转换的 pdf 文件中提取文本。我正在做一个需要这些 pdf 文件中的数据的项目。我在 Python 中尝试过 pdfminer、pdf2txt 库,但在这种情况下它们都不起作用。对于普通的pdf,它工作得很好。但是,对于这些特殊的 pdf 文件,它只是给出了空格。谁能帮我解决这个问题?谢谢。
python - PDF 到 TEXT 的转换方式错误
我正在使用 pdfminer 从许多 PDF 文件中提取文本。某些 pdf 文件的结果文本文件很奇怪,其中每行仅包含一个字符。不是所有的 PDF 文件,而是其中的一些文件,我仍然无法找出原因以及哪些 PDF 文件会导致此问题。
这是我的代码:
这是导致此问题的 PDF 文件之一。
编辑
我尝试了 tika,但由于我使用的是 Django,所以连接出现问题。
非常感谢
python - 使用 pdfminer 将 pdf 分离到页面
我正在尝试逐页提取pdf并将结果存储在字典中,如下所示:
但是无论我访问哪个页面,我都会获得所有以前的页面。请告诉我如何解决这个问题?
python-2.7 - Python pdfminer extract image 每页生成多张图片(应该是单张图片)
我正在尝试提取 PDF 中的图像。我正在使用的文件是 2 页以上。第 1 页是文本,第 2-n 页是图像(每页一个,或者它可能是跨多个页面的单个图像;我无法控制原点)。
我能够从第 1 页解析出文本,但是当我尝试获取图像时,每个图像页面都会获得 3 个图像。我无法确定难以保存的图像类型。此外,尝试将每页 3 张图片保存为单个 img 不会提供任何结果(因为无法通过 OSX 上的 finder 打开)
样本:
save_image
pageNum_imgNum
在模式中以格式为每个图像写入一个文件,'wb'
或者在模式中为每页写入一个图像'a'
。我尝试了许多文件扩展名,但都没有成功。
我研究过的资源:
http://denis.papathanasiou.org/posts/2010.08.04.post.html(过时的 pdfminer 版本) http://nedbatchelder.com/blog/200712/extracting_jpgs_from_pdfs.html
python - 在python中将html标签写入文本文件
我使用 pdfminer 将复杂(表格、数字)和非常长的 pdf 转换为 html。我想进一步解析结果(例如提取表格、段落等),然后使用 nltk 中的句子标记器进行进一步分析。为此,我想将 html 保存到文本文件以弄清楚如何进行解析。不幸的是,我的代码没有将 html 写入 txt:
此外,代码在 shell 中打印了整个 html 字符串:我怎样才能避免它?