问题标签 [pdf-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text-extraction - 如何获取字符/单词/行/块坐标
我正在做 pdftotext -bbox file.pdf 并产生字级输出。有没有办法在字符/短语/行/块级别上输出坐标?
我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。
text-extraction - pdftotext 获取字体信息(字体系列、样式、大小)
我正在使用“ pdftotext -bbox file.pdf
”将pdf
文件转换为HTML
.
这是输出中的示例行:
有没有办法获取每个单词的字体信息,例如:
- 字体系列,例如 Verdana
- 样式,即无、粗体、斜体
- 大小,例如字体大小 9
我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。
r - 如何使用 R 抓取下载的 PDF 文件
我最近在实习期间开始了抓取(和一般编程),我遇到了 PDF 抓取。每次我尝试用 R 阅读扫描的 pdf 时,我都无法让它工作。我尝试使用该file.choose()
功能无济于事。我是否需要更改我的目录,或者如何将 pdf 从我的文件中获取到 R 中?代码看起来像这样:
此外,使用 pdftables 将我带到这里:
node.js - 如果 PDF 在新选项卡中打开,则通过 Puppeteer 下载 PDF 时出现问题
我正在尝试通过单击按钮下载 pdf。但是我无法下载它,因为它在新标签中打开而不是下载它。
遵循我尝试过的解决方案,但似乎没有任何效果。请帮我 。
1)收听targetcreated
,并将页面转换为pdf
did not work
转换后的pdf为空白的解决方案
2) 设置标志always_open_pdf_externally: true
did not work
Chrome/Chromium崩溃时的解决方案always_open_pdf_externally: true
3)在页面评估中给出 print() ,并在打印预览打开时找到save
按钮并单击 。
解决方案did not work
,因为它打开提示询问位置以保存 pdf 并且 Puppeteer 无法访问操作系统驱动的提示
node.js - 当无头为真时,puppeteer 导航到 pdf 文档的问题
我正在尝试使用 puppeteer 抓取 pdf 文件。单击按钮后,它会导航到 pdf 文件,但 puppeteer 无法渲染或无法导航到 pdf 文档。响应为空。如果 headless 为 false,则 pdf 渲染得很好。请帮我解决它。我希望在无头为真时下载 PDF。
设置标志always_open_pdf_externally: true
不起作用,因为它会使铬/铬崩溃
node.js - 如何使用 puppeteer 从打印预览中下载 pdf
在 puppeteer 中,我正在尝试下载发票。当我点击下载按钮时,它会打开打印预览对话框。有没有办法从打印预览窗口保存 pdf?
打印预览中的内容与呈现的页面不同,如果是这种情况,我将使用 puppeteer 页面转换为 pdf。但内容是即时生成的并进入打印预览。
请帮我下载pdf
python-3.x - 有没有一种简单的方法可以在 PDF 中查找特定文本、突出显示并打印或保存到新文件?
所以我希望做的是在 PDF 格式的建筑布局图中自动绘制办公桌位置的过程。
我与一个处理 IT 设备请求的部署团队合作。基本上,我们收到的请求包含用户名列表及其在建筑物中的位置,即楼层编号和办公桌位置编号。
我目前的例行程序是打印出每个楼层的 pdf 平面图副本,并在我根据请求低-高优先级计划当天的路线之前,用笔手动突出显示地图上的所有办公桌位置.. 这个当我们收到大量请求时可能会有点乏味 - 所以我想知道我是否可以只向 Python 提供办公桌位置列表并让它生成一个 PDF,其中所有位置已经为我突出显示 - 并且可能添加一些额外的如果可能的话,对页面发表评论:)
python - 使用带有表格的python识别pdf中带有网格线的表格
我正在尝试提取 pdf 文档(大约 250 页)中包含的所有表格。问题不在于提取。问题是识别表。使用我的算法,它也像内容一样采用垃圾数据,有时是我不想要的项目符号。我特别想要只有网格线的表格。
这在一定程度上为我过滤掉了页面,但并不完全。我只需要一个包含网格线表格的页码数组。有办法吗?
r - 如果特定工作表中存在字符串,则使用 TRUE 为 FALSE 命名多个 xlsx 文件
此代码读取 xlsx 文件并根据工作表编号和在特定位置(在本例中为 temp[2,1])找到的值创建单独命名的文件。但是,由于每个文件和工作表都略有不同,因此名称不一致。
如果在工作表中的任何位置(在本例中为“vivax”)存在特定字符串,我想要一种用 TRUE 或 FALSE 命名文件的方法。所以在这种情况下:
示例文件:https ://drive.google.com/file/d/1p4HAuFl7Codine1Vvb8SzA7OHTzraaHz/view?usp=sharing