问题标签 [pdf-scraping]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

137 问题

0 投票

1 回答

442 浏览

text-extraction - 如何获取字符/单词/行/块坐标

我正在做 pdftotext -bbox file.pdf 并产生字级输出。有没有办法在字符/短语/行/块级别上输出坐标？

我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

2018-05-06T09:51:00.337

0 投票

0 回答

522 浏览

text-extraction - pdftotext 获取字体信息（字体系列、样式、大小）

我正在使用“ pdftotext -bbox file.pdf”将pdf文件转换为HTML.

这是输出中的示例行：

有没有办法获取每个单词的字体信息，例如：

字体系列，例如 Verdana
样式，即无、粗体、斜体
大小，例如字体大小 9

我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

text-extraction pdftotext poppler pdf-scraping xpdf

2018-05-06T11:23:24.830

0 投票

3 回答

4724 浏览

r - 如何使用 R 抓取下载的 PDF 文件

我最近在实习期间开始了抓取（和一般编程），我遇到了 PDF 抓取。每次我尝试用 R 阅读扫描的 pdf 时，我都无法让它工作。我尝试使用该file.choose()功能无济于事。我是否需要更改我的目录，或者如何将 pdf 从我的文件中获取到 R 中？代码看起来像这样：

此外，使用 pdftables 将我带到这里：

r pdf-scraping

2018-06-07T20:33:15.843

0 投票

0 回答

719 浏览

node.js - 如果 PDF 在新选项卡中打开，则通过 Puppeteer 下载 PDF 时出现问题

我正在尝试通过单击按钮下载 pdf。但是我无法下载它，因为它在新标签中打开而不是下载它。

遵循我尝试过的解决方案，但似乎没有任何效果。请帮我。

1）收听targetcreated，并将页面转换为pdf

did not work转换后的pdf为空白的解决方案

2) 设置标志always_open_pdf_externally: true

did not workChrome/Chromium崩溃时的解决方案always_open_pdf_externally: true

3）在页面评估中给出 print() ，并在打印预览打开时找到save按钮并单击。

解决方案did not work，因为它打开提示询问位置以保存 pdf 并且 Puppeteer 无法访问操作系统驱动的提示

node.js web-scraping puppeteer pdf-scraping

2018-06-20T05:39:18.560

0 投票

0 回答

368 浏览

node.js - 当无头为真时，puppeteer 导航到 pdf 文档的问题

我正在尝试使用 puppeteer 抓取 pdf 文件。单击按钮后，它会导航到 pdf 文件，但 puppeteer 无法渲染或无法导航到 pdf 文档。响应为空。如果 headless 为 false，则 pdf 渲染得很好。请帮我解决它。我希望在无头为真时下载 PDF。

设置标志always_open_pdf_externally: true不起作用，因为它会使铬/铬崩溃

node.js web-scraping chromium puppeteer pdf-scraping

2018-06-22T03:30:25.443

0 投票

1 回答

1185 浏览

node.js - 如何使用 puppeteer 从打印预览中下载 pdf

在 puppeteer 中，我正在尝试下载发票。当我点击下载按钮时，它会打开打印预览对话框。有没有办法从打印预览窗口保存 pdf？

打印预览中的内容与呈现的页面不同，如果是这种情况，我将使用 puppeteer 页面转换为 pdf。但内容是即时生成的并进入打印预览。

请帮我下载pdf

node.js web-scraping chromium puppeteer pdf-scraping

2018-06-22T07:09:22.513

0 投票

1 回答

58 浏览

python-3.x - 有没有一种简单的方法可以在 PDF 中查找特定文本、突出显示并打印或保存到新文件？

所以我希望做的是在 PDF 格式的建筑布局图中自动绘制办公桌位置的过程。

我与一个处理 IT 设备请求的部署团队合作。基本上，我们收到的请求包含用户名列表及其在建筑物中的位置，即楼层编号和办公桌位置编号。

我目前的例行程序是打印出每个楼层的 pdf 平面图副本，并在我根据请求低-高优先级计划当天的路线之前，用笔手动突出显示地图上的所有办公桌位置.. 这个当我们收到大量请求时可能会有点乏味 - 所以我想知道我是否可以只向 Python 提供办公桌位置列表并让它生成一个 PDF，其中所有位置已经为我突出显示 - 并且可能添加一些额外的如果可能的话，对页面发表评论:)

python-3.x pdf-scraping

2018-09-02T04:45:34.663

0 投票

0 回答

175 浏览