问题标签 [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
442 浏览

text-extraction - 如何获取字符/单词/行/块坐标

我正在做 pdftotext -bbox file.pdf 并产生字级输出。有没有办法在字符/短语/行/块级别上输出坐标?

我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

0 投票
0 回答
522 浏览

text-extraction - pdftotext 获取字体信息(字体系列、样式、大小)

我正在使用“ pdftotext -bbox file.pdf”将pdf文件转换为HTML.

这是输出中的示例行:

有没有办法获取每个单词的字体信息,例如:

  • 字体系列,例如 Verdana
  • 样式,即无、粗体、斜体
  • 大小,例如字体大小 9

我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

0 投票
3 回答
4724 浏览

r - 如何使用 R 抓取下载的 PDF 文件

我最近在实习期间开始了抓取(和一般编程),我遇到了 PDF 抓取。每次我尝试用 R 阅读扫描的 pdf 时,我都无法让它工作。我尝试使用该file.choose()功能无济于事。我是否需要更改我的目录,或者如何将 pdf 从我的文件中获取到 R 中?代码看起来像这样:

此外,使用 pdftables 将我带到这里:

0 投票
0 回答
719 浏览

node.js - 如果 PDF 在新选项卡中打开,则通过 Puppeteer 下载 PDF 时出现问题

我正在尝试通过单击按钮下载 pdf。但是我无法下载它,因为它在新标签中打开而不是下载它。

遵循我尝试过的解决方案,但似乎没有任何效果。请帮我 。

1)收听targetcreated,并将页面转换为pdf

did not work转换后的pdf为空白的解决方案

2) 设置标志always_open_pdf_externally: true

did not workChrome/Chromium崩溃时的解决方案always_open_pdf_externally: true

3)在页面评估中给出 print() ,并在打印预览打开时找到save按钮并单击 。

解决方案did not work,因为它打开提示询问位置以保存 pdf 并且 Puppeteer 无法访问操作系统驱动的提示

0 投票
0 回答
368 浏览

node.js - 当无头为真时,puppeteer 导航到 pdf 文档的问题

我正在尝试使用 puppeteer 抓取 pdf 文件。单击按钮后,它会导航到 pdf 文件,但 puppeteer 无法渲染或无法导航到 pdf 文档。响应为空。如果 headless 为 false,则 pdf 渲染得很好。请帮我解决它。我希望在无头为真时下载 PDF。

设置标志always_open_pdf_externally: true不起作用,因为它会使铬/铬崩溃

0 投票
1 回答
1185 浏览

node.js - 如何使用 puppeteer 从打印预览中下载 pdf

在 puppeteer 中,我正在尝试下载发票。当我点击下载按钮时,它会打开打印预览对话框。有没有办法从打印预览窗口保存 pdf?

打印预览中的内容与呈现的页面不同,如果是这种情况,我将使用 puppeteer 页面转换为 pdf。但内容是即时生成的并进入打印预览。

请帮我下载pdf

0 投票
1 回答
58 浏览

python-3.x - 有没有一种简单的方法可以在 PDF 中查找特定文本、突出显示并打印或保存到新文件?

所以我希望做的是在 PDF 格式的建筑布局图中自动绘制办公桌位置的过程。

我与一个处理 IT 设备请求的部署团队合作。基本上,我们收到的请求包含用户名列表及其在建筑物中的位置,即楼层编号和办公桌位置编号。

我目前的例行程序是打印出每个楼层的 pdf 平面图副本,并在我根据请求低-高优先级计划当天的路线之前,用笔手动突出显示地图上的所有办公桌位置.. 这个当我们收到大量请求时可能会有点乏味 - 所以我想知道我是否可以只向 Python 提供办公桌位置列表并让它生成一个 PDF,其中所有位置已经为我突出显示 - 并且可能添加一些额外的如果可能的话,对页面发表评论:)

0 投票
0 回答
175 浏览

parsing - 从 PDF 部分中提取文本,将字符串保持在一行中

我有一堆 PDF 文件,我需要从中提取一些信息。“部分”有文本“Referências”,如下图所示: 在此处输入图像描述

我尝试了很多文本提取工具来完成这个任务,但问题是我需要字符串保持在同一行,我不知道我是否能正确解释,所以让我们看一个例子:

我不想要那个: 在此处输入图像描述 我想要那个: 在此处输入图像描述

希望你能理解,对英语的事情感到抱歉。非常感谢。

0 投票
0 回答
409 浏览

python - 使用带有表格的python识别pdf中带有网格线的表格

我正在尝试提取 pdf 文档(大约 250 页)中包含的所有表格。问题不在于提取。问题是识别表。使用我的算法,它也像内容一样采用垃圾数据,有时是我不想要的项目符号。我特别想要只有网格线的表格。

这在一定程度上为我过滤掉了页面,但并不完全。我只需要一个包含网格线表格的页码数组。有办法吗?

0 投票
1 回答
48 浏览

r - 如果特定工作表中存在字符串,则使用 TRUE 为 FALSE 命名多个 xlsx 文件

此代码读取 xlsx 文件并根据工作表编号和在特定位置(在本例中为 temp[2,1])找到的值创建单独命名的文件。但是,由于每个文件和工作表都略有不同,因此名称不一致。

如果在工作表中的任何位置(在本例中为“vivax”)存在特定字符串,我想要一种用 TRUE 或 FALSE 命名文件的方法。所以在这种情况下:

示例文件:https ://drive.google.com/file/d/1p4HAuFl7Codine1Vvb8SzA7OHTzraaHz/view?usp=sharing