问题标签 [pdftools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
394 浏览

r - 为“加载”和“保存”进程创建循环

我有一个data.frame(dim: 100 x 1) 包含 url 链接列表,每个 url 看起来像这样:https:blah-blah-blah.com/item/123/index.do

该列表(该列表是一个名为 data.frame的 100 行和一个名为并且采用字符格式my_list的单列)看起来像这样:col$ col: chr

我正在尝试将这些 url 中的每一个导入 R 并将对象共同保存为与文本挖掘过程兼容的对象。

我知道如何手动成功转换每个网址(在列表中):

成功创建此“文章”文件后,我可以对其进行检查:

它看起来像这样:

从这里,我可以成功地将其保存为 RDS 文件:

有没有办法同时对所有 100 篇文章执行此操作?也许有一个循环?

就像是 :

如果编写正确,它会将每篇文章保存为 RDS 文件(例如 article_1.rds、article_2.rds、...article_100.rds)。

那么是否可以将所有这些文章保存到一个rds文件中?

0 投票
0 回答
33 浏览

r - 如何从位于 sftp 服务器中的 pdf 文件中读取所有页面

我一直在尝试获取位于 sftp 服务器上的 pdf 文件并阅读所有页面。到目前为止,我只能将一页保存到变量元素中。您能否建议是否可以改进此代码以实现这一目标?这样做的主要目的不是在本地 R 文件夹中保存文件副本以减少 R/W

当我运行该功能read_raw_pdf时,它可以工作,但它只会获取 pdf 文档的第一页

另一方面,这个函数可以将所有页面放入一个变量中,但我不能让它从外部 sftp 服务器获取文件,因为它需要一个路径,而不是二进制数据

0 投票
0 回答
78 浏览

r - 使用R中的Pdftools从pdf转换为png时如何获得完整的ggplot?

我有从 rmd 文件呈现的 pdf 文件,并且在将 pdf 页面转换为 png 时遇到问题。在我演示了一个类似的问题以便更好地理解之后:

我生成了一个 ggplot 并保存为 pdf(mtcars.pdf)。

mtcars.pdf 如下:

在此处输入图像描述

现在我正在尝试使用 pdftools 的 pdf_convert 函数将 pdf 转换为 png 文件。

但我得到的情节没有任何轴上的文本数据,并得到如下错误消息:

“将第 1 页转换为 mtcars_1.png...PDF 错误:找不到 'TimesNewRomanPSMT' 的字体”

我尝试了其他几种字体,但 pdf_convert 函数无法识别它们中的任何一种。它给出的输出图像如下:

在此处输入图像描述

有什么方法可以将ggplot的所有内容从pdf转换为png?

0 投票
1 回答
72 浏览

r - 在 R 中阅读 PDF 作品集

是否可以在 R 中读取/转换 PDF 作品集?

我通常使用pdftools,但是,我得到一个错误:

reprex 包(v1.0.0)于 2021-05-06 创建

我最终得到的K190072_1.png只是投资组合首页的图像。

K190072.510kSummary.Final_Sent001.pdf对这个 PDF 作品集的文档感兴趣

我找到了一种 Python 方法(Reading a PDF Portfolio in Python?),但我真的很想在 R 中做到这一点。

谢谢您的帮助。

0 投票
0 回答
105 浏览

r - 如果在 pdftools::pdf_subset(), R 中使用特定字符,如何以正确的文件名保存 .pdf 文件

我希望有一个人可以帮助我。我使用pdf_subset()from pdftoolspackage 从 .pdf 文件中选择一些页面并保存在新的 .pdf 文件中。但是,有一个问题:我的路径/文件名由特定字符(抛光字母)组成,这些字符在文件保存时被其他符号替换。如何解决替换符号的问题?谢谢!

Blad wpoleceniu 'cpp_pdf_select(input, output, pages, password)': open C:\Users\PDF\ FĹĹ»_6\SiĹ‚akĂłw.pdf : 没有这样的文件或目录

0 投票
0 回答
68 浏览

r - 如何根据 r 中的变量范围对 data.table 进行分组和聚合

我有来自 pdftools pdf_data() 的输出,用于一个城镇的财务报表页面。不幸的是,在极少数情况下,y 线的捕获会稍微偏离,如下所示。我希望能够对 y 进行分组,包括 y 为 +-1 的情况。

如果 y <= y + 1 和 y => y - 1,则所需的输出是这样的:

大多数关于在一个范围内分组的尝试建议为高和低创建新列,创建一个新变量 cut() 进行分组,但我不确定从哪里开始实现这一点。我也有数千页,其中 y 不断变化。

我通常在 data.table 中使用,因此首选解决方案。

reprex 包于 2021-05-20 创建 (v2.0.0 )

0 投票
0 回答
61 浏览

r - R 不允许写入文档,cpp_pdf_select 中的错误(输入、输出、页面、密码)

我正在尝试使用以下代码,该代码用于订购 pdf 的页面:

该代码在其他计算机上运行良好,但在我目前所在的计算机上出现此错误:

我已经运行了部分代码,它能够从 pdf 中提取数据,当它尝试创建新的 pdf 时会出现问题,我也尝试将数据框导出到 excel,但我得到了同样的错误。这是一台工作计算机,我应该打电话给 IT 还是内部问题?

0 投票
1 回答
115 浏览

r - 如何将pdf的所有页面转换为R中的单页pdf文档

我曾尝试探索 pdftools。它确实有一个 pdf_combine() 函数,可以将多个 pdf 拼接为一个。但是,它无助于将 pdf 文档的多页合并为一页。

0 投票
1 回答
51 浏览

r - 如何系统地从教科书中提取数据

{编辑}大家好!

我正在尝试从教科书(pdf)中系统地提取数据。因为这个任务不容易转化为可重现的例子,我在这里提供了书中的 2 页作为例子。这两页包含一个物种学名(属物种)列表和一系列 2 字符代码。我想从提供的 2 页示例中提取所有物种的学名及其代码。

这是我要提取的示例(物种=绿色,代码=蓝色):

我要提取的数据示例

到目前为止,我已经能够非常可靠地恢复科学名称,但是代码并没有像我想要的那样提取:

从这段代码中,我获得以下内容species_full_df

(注意顺序没有保留,但大部分物种名称都在里面)

我从以下位置获得这些结果use_full_df

问题:提取是抓取 3 个字符的代码(我只想提取 2 个字符的使用代码),并且每行只返回一个代码(许多物种有多个代码)。

你能建议如何改进这个过程吗?大概我对正则表达式的使用是可恶的。

先感谢您!

-亚历克斯。

0 投票
0 回答
48 浏览

r - R - 使用pdftools检索文本时出错(错误:poppler_pdf_text中的错误(loadfile(pdf),opw,upw):空间不足)

我在转换似乎与内存相关的 pdf 文件时遇到问题。我看过其他帖子,但不幸的是没有解决这个问题。

我正在尝试从 R 中的大约 5000 个 pdf 中检索文本。下面是我的代码:

在应用该功能的过程中出现以下错误:

poppler_pdf_text(加载文件(pdf),opw,upw)中的错误:空间不足

任何帮助,将不胜感激。