问题标签 [python-pdfreader]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
463 浏览

python - 从S3存储桶python的pdf文件中提取文本

我的 AWS s3 存储桶中有多个格式文件,例如 pdf、doc、rtf、odt、png,我需要从中提取文本。我已经设法通过它们的路径获取内容列表。现在根据文件类型,我将使用不同的库从文件中提取文本。由于文件可能有数千个,我需要直接从 s3 中提取文本,而不是下载。

我尝试了一些东西,但它给了我错误

但我收到一个错误

请帮我领导。谢谢

0 投票
1 回答
192 浏览

python - 文档属性 (PDF) 中的“已创建”和“已修改”字段未显示

目前,我已将许多 PDF 合并在一起以创建一个 PDF。我添加了元数据信息,其中包括“创建”和“修改”两个字段,但结果这些字段仍然不显示信息。这是我的源代码:

图片

图片

你能给我一些建议吗?

0 投票
1 回答
457 浏览

python - 如何查看在databricks中生成的pdf文件

我尝试使用以下代码生成示例 pdf 文件。我相信已经生成了一个 pdf,但我无法查看它。如何查看此 pdf 以及如何导出它。我是数据砖的新手。请帮助找到解决方案。谢谢

0 投票
1 回答
81 浏览

python - 将关键字与 PDF 文件进行比较

这是通过文件夹名称调用文件并提取数据的程序。现在我想将数据与我在下面程序中使用的关键字进行比较。但它给了我:

我想删除错误并将关键字与提取的数据进行比较。我在这个程序中使用了 PyMuPDF 库。

0 投票
0 回答
83 浏览

text-extraction - 使用PyPDF2抓取PDF,数据不按顺序抓取!这是这个库的限制吗?

使用 PYPDF2 阅读 PDF 时,语法如下:

假设这个 PDF 有表格数据,但没有适当的表格结构。在这种情况下,抓取的数据或文本会导致......列名的序列与行数据的序列不同。

此外,列内没有保留空间,这导致提取后对文本的处理更加复杂。我试图浏览 PYPDF2 的文档,但没有找到任何解决此问题的方法。

0 投票
1 回答
410 浏览

python - 在 Adob​​e pdf 服务 API 上将 .pdf 转换为 .docx(使用 Python)

我正在尝试编写一个 Python 程序,使用 Adob​​e PDF Server API(免费试用)将“.pdf”文件转换为“.docx”文件。

我发现文献能够将任何“.pdf”文件转换为包含“.txt”文件(恢复文本数据)和“.excel”文件(返回表格数据)的“.zip”文件。

但我还无法完成对“.docx”文件的转换,将提取文件的名称更改为name.docx

我去阅读了文献,adobe.pdfservices.operation.pdfops.options.extractpdf.extract_pdf_options.ExtractPDFOptions()但没有找到调整提取并将其从“.zip”更改为“.docx”的方法。接下来我可以尝试什么?

0 投票
1 回答
137 浏览

python - 使用 requests.get() 和 Python 下载 pdf 时随机损坏的 pdf 文件

感谢您阅读我的帖子。我有一个 pdf 文件的 url 列表。

以下是我的pdf的链接:

https://www.sec.gov/Archives/edgar/data/1005757/999999999715000035/filename1.pdf https://www.sec.gov/Archives/edgar/data/1037760/999999999715000162/filename1.pdf https:// www.sec.gov/Archives/edgar/data/1038133/999999999715000169/filename1.pdf https://www.sec.gov/Archives/edgar/data/1009626/999999999715000483/filename1.pdf https://www.sec. gov/Archives/edgar/data/1017491/999999999715000518/filename1.pdf https://www.sec.gov/Archives/edgar/data/1020214/999999999715000557/filename1.pdf https://www.sec.gov/Archives/埃德加/数据/1020214/999999999715000795/filename1.pdf

如果我手动单击它们并下载 pdf 文件,这七个链接可以完美运行。但是,如果我使用 python 代码下载它们,就会发生随机错误。有时,第一个 pdf 已损坏且无法打开。有时。它是第二个,或第三个,等等......

你能帮我理解为什么会这样吗?


更新:我将这些文件上传到谷歌驱动器,最后发现这是因为 SEC 将我识别为机器人。我已经添加了标题。知道如何绕过这个吗? 谷歌云端硬盘

0 投票
1 回答
40 浏览

python - 有没有办法在 python 中读取 pdf 或 word 文档的内容,同时保持其结构(项目符号列表的级别和深度)

我想从 pdf 或 word 文档生成 html 代码。该文档包含项目符号列表和一些项目符号列表包含和其他项目符号列表。我想在 html 中转换项目符号列表,但是当我提取文档的内容时,我只有一个没有初始结构和项目符号的粗略文本。我需要一种方法来识别文档中的项目符号及其深度

谢谢你的帮助