问题标签 [pdfminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
15783 浏览

python - Python PDFMIner - PDF 到 CSV

我希望能够将 PDF 转换为 CSV 文件,并找到了几个有用的脚本,但是作为 Python 新手,我有一个问题:

您在哪里指定要打印到的 PDF 和 CSV 的文件路径?

我正在使用 Python 2.7.11 和 PDFMiner 20140328。

0 投票
2 回答
2486 浏览

jquery - PDFQuery:获取元素所在的页码

这是我第一次使用PDFQuery来抓取 PDF。

我需要做的是从有几页的价目表中获取价格,我想将产品代码提供给 PDFQuery,它应该找到代码并在它旁边返回价格。问题是使用 Github 页面上的第一个示例获取文本的位置,但它清楚地表示“请注意,我们不必知道名称在页面上的位置,或者它在哪个页面上”。我的价目表就是这种情况,但是所有其他示例都指定了页码(LTPage[pageid=1]),但我看不到我们从哪里得到页码。

如果我不指定页码,它会为所有页面返回同一位置的所有文本。

另外,我添加了一个exactText函数,因为代码可能是,例如,“92005”、“92005C”、“92005G”,所以:contains单独使用并没有多大帮助。

我尝试选择元素所在的页面,并使用 JQuery .closest,但都没有运气。

我检查了PDFMiner 文档PyQuery 文档 ,但我没有看到任何对我有帮助的东西 =(

我的代码现在看起来像这样:

任何帮助都非常感谢,伙计们和女孩们!!!

0 投票
2 回答
14133 浏览

python - 我想使用 PDFminer 将文本从 PDF 提取到 .text 文件。我找到了代码,但我不知道如何使用它

这是我在这里某处找到的代码。我不知道如何使用它。有人可以帮我完成这个并帮助我转换样本 pdf 吗?

0 投票
1 回答
2590 浏览

python - 在python中从具有特定标题的PDF中提取数据

我想用python解析PDF文件。我已经看到 PDFMiner 的示例无法解释我的要求。

例如,如果我想解析一份简历,它包含各种字段,如摘要、经验和爱好。

我有兴趣只提取经验,这个经验字段将在第一位或第二位或任何地方,我需要确定经验字段的位置并需要提取数据。

我怎样才能做到这一点?

0 投票
0 回答
1140 浏览

python - Losing information when extracting text from PDF using PDFMiner

I'm using Python 3.4 on Windows 7 and hoping I can extract text from PDF files using PDFMiner. However, losing information was quite common when I was testing. For some files, it may be just a matter of a few sentences. But I've encountered situations where half of the text could not be extracted, depending on the file format. Here's my full code:

I wonder if there's a way to extract the full text using PDFMiner. I've heard of poppler, but I can't seem to find how to use it as a Python library. Besides, I don't want to use the command line. Can anyone help?

Here's an example: a thesis. Several paragraphs were lost when extracting using the code above. Like in the 2nd page, I could only extract first half of the page until "Pereira, Tishby, and Lee (1993)" at the middle. Then it just skip right to the next page for no apparent reason.

0 投票
0 回答
548 浏览

python - 即使在 Python 中尝试使用 pdfminer、pdf2txt、textract 也无法将 pdf 转换为文本

我无法从最初从 InDesign 和 Illustrator 转换的 pdf 文件中提取文本。我正在做一个需要这些 pdf 文件中的数据的项目。我在 Python 中尝试过 pdfminer、pdf2txt 库,但在这种情况下它们都不起作用。对于普通的pdf,它工作得很好。但是,对于这些特殊的 pdf 文件,它只是给出了空格。谁能帮我解决这个问题?谢谢。

0 投票
1 回答
147 浏览

python - PDF 到 TEXT 的转换方式错误

我正在使用 pdfminer 从许多 PDF 文件中提取文本。某些 pdf 文件的结果文本文件很奇怪,其中每行仅包含一个字符。不是所有的 PDF 文件,而是其中的一些文件,我仍然无法找出原因以及哪些 PDF 文件会导致此问题。

这是我的代码:

这是导致问题的 PDF 文件之一。

编辑

我尝试了 tika,但由于我使用的是 Django,所以连接出现问题。

我得到的错误

非常感谢

0 投票
2 回答
2911 浏览

python - 使用 pdfminer 将 pdf 分离到页面

我正在尝试逐页提取pdf并将结果存储在字典中,如下所示:

但是无论我访问哪个页面,我都会获得所有以前的页面。请告诉我如何解决这个问题?

0 投票
3 回答
9930 浏览

python-2.7 - Python pdfminer extract image 每页生成多张图片(应该是单张图片)

我正在尝试提取 PDF 中的图像。我正在使用的文件是 2 页以上。第 1 页是文本,第 2-n 页是图像(每页一个,或者它可能是跨多个页面的单个图像;我无法控制原点)。

我能够从第 1 页解析出文本,但是当我尝试获取图像时,每个图像页面都会获得 3 个图像。我无法确定难以保存的图像类型。此外,尝试将每页 3 张图片保存为单个 img 不会提供任何结果(因为无法通过 OSX 上的 finder 打开)

样本:

save_imagepageNum_imgNum在模式中以格式为每个图像写入一个文件,'wb'或者在模式中为每页写入一个图像'a'。我尝试了许多文件扩展名,但都没有成功。

我研究过的资源:

http://denis.papathanasiou.org/posts/2010.08.04.post.html(过时的 pdfminer 版本) http://nedbatchelder.com/blog/200712/extracting_jpgs_from_pdfs.html

0 投票
1 回答
351 浏览

python - 在python中将html标签写入文本文件

我使用 pdfminer 将复杂(表格、数字)和非常长的 pdf 转换为 html。我想进一步解析结果(例如提取表格、段落等),然后使用 nltk 中的句子标记器进行进一步分析。为此,我想将 html 保存到文本文件以弄清楚如何进行解析。不幸的是,我的代码没有将 html 写入 txt:

此外,代码在 shell 中打印了整个 html 字符串:我怎样才能避免它?