“pdftools”的相关标签问题_Stack Overflow中文网

0 投票

3 回答

394 浏览

r - 为“加载”和“保存”进程创建循环

我有一个data.frame(dim: 100 x 1) 包含 url 链接列表，每个 url 看起来像这样：https:blah-blah-blah.com/item/123/index.do。

该列表（该列表是一个名为 data.frame的 100 行和一个名为并且采用字符格式my_list的单列）看起来像这样：col$ col: chr

我正在尝试将这些 url 中的每一个导入 R 并将对象共同保存为与文本挖掘过程兼容的对象。

我知道如何手动成功转换每个网址（在列表中）：

成功创建此“文章”文件后，我可以对其进行检查：

它看起来像这样：

从这里，我可以成功地将其保存为 RDS 文件：

有没有办法同时对所有 100 篇文章执行此操作？也许有一个循环？

就像是：

如果编写正确，它会将每篇文章保存为 RDS 文件（例如 article_1.rds、article_2.rds、...article_100.rds）。

那么是否可以将所有这些文章保存到一个rds文件中？

r for-loop pdftools

2021-04-09T19:28:58.973

0 投票

0 回答

33 浏览

r - 如何从位于 sftp 服务器中的 pdf 文件中读取所有页面

我一直在尝试获取位于 sftp 服务器上的 pdf 文件并阅读所有页面。到目前为止，我只能将一页保存到变量元素中。您能否建议是否可以改进此代码以实现这一目标？这样做的主要目的不是在本地 R 文件夹中保存文件副本以减少 R/W

当我运行该功能read_raw_pdf时，它可以工作，但它只会获取 pdf 文档的第一页

另一方面，这个函数可以将所有页面放入一个变量中，但我不能让它从外部 sftp 服务器获取文件，因为它需要一个路径，而不是二进制数据

r sftp rmagick pdftools

2021-04-20T16:13:58.640

0 投票

0 回答

78 浏览

r - 使用R中的Pdftools从pdf转换为png时如何获得完整的ggplot？

我有从 rmd 文件呈现的 pdf 文件，并且在将 pdf 页面转换为 png 时遇到问题。在我演示了一个类似的问题以便更好地理解之后：

我生成了一个 ggplot 并保存为 pdf(mtcars.pdf)。

mtcars.pdf 如下：

现在我正在尝试使用 pdftools 的 pdf_convert 函数将 pdf 转换为 png 文件。

但我得到的情节没有任何轴上的文本数据，并得到如下错误消息：

“将第 1 页转换为 mtcars_1.png...PDF 错误：找不到 'TimesNewRomanPSMT' 的字体”

我尝试了其他几种字体，但 pdf_convert 函数无法识别它们中的任何一种。它给出的输出图像如下：

有什么方法可以将ggplot的所有内容从pdf转换为png？

r ggplot2 pdf-conversion pdftools

2021-04-28T20:58:53.730

0 投票

1 回答

72 浏览

r - 在 R 中阅读 PDF 作品集

是否可以在 R 中读取/转换 PDF 作品集？

我通常使用pdftools，但是，我得到一个错误：

^{由reprex 包（v1.0.0）于 2021-05-06 创建}

我最终得到的K190072_1.png只是投资组合首页的图像。

我K190072.510kSummary.Final_Sent001.pdf对这个 PDF 作品集的文档感兴趣

我找到了一种 Python 方法（Reading a PDF Portfolio in Python?），但我真的很想在 R 中做到这一点。

谢谢您的帮助。

r pdf pdftools

2021-05-06T00:12:08.193

0 投票

0 回答

105 浏览

r - 如果在 pdftools::pdf_subset(), R 中使用特定字符，如何以正确的文件名保存 .pdf 文件

我希望有一个人可以帮助我。我使用pdf_subset()from pdftoolspackage 从 .pdf 文件中选择一些页面并保存在新的 .pdf 文件中。但是，有一个问题：我的路径/文件名由特定字符（抛光字母）组成，这些字符在文件保存时被其他符号替换。如何解决替换符号的问题？谢谢！

Blad wpoleceniu 'cpp_pdf_select(input, output, pages, password)': open C:\Users\PDF\ FĹĹ»_6\SiĹ‚akĂłw.pdf : 没有这样的文件或目录

r encoding special-characters polish pdftools

2021-05-19T13:10:37.283

0 投票

0 回答

68 浏览

r - 如何根据 r 中的变量范围对 data.table 进行分组和聚合

我有来自 pdftools pdf_data() 的输出，用于一个城镇的财务报表页面。不幸的是，在极少数情况下，y 线的捕获会稍微偏离，如下所示。我希望能够对 y 进行分组，包括 y 为 +-1 的情况。

如果 y <= y + 1 和 y => y - 1，则所需的输出是这样的：

大多数关于在一个范围内分组的尝试建议为高和低创建新列，创建一个新变量 cut() 进行分组，但我不确定从哪里开始实现这一点。我也有数千页，其中 y 不断变化。

我通常在 data.table 中使用，因此首选解决方案。

^{由reprex 包于 2021-05-20 创建 (v2.0.0 )}

r data.table pdftools

2021-05-20T16:16:21.947

0 投票

0 回答

61 浏览

r - R 不允许写入文档，cpp_pdf_select 中的错误（输入、输出、页面、密码）

我正在尝试使用以下代码，该代码用于订购 pdf 的页面：

该代码在其他计算机上运行良好，但在我目前所在的计算机上出现此错误：

我已经运行了部分代码，它能够从 pdf 中提取数据，当它尝试创建新的 pdf 时会出现问题，我也尝试将数据框导出到 excel，但我得到了同样的错误。这是一台工作计算机，我应该打电话给 IT 还是内部问题？

r pdftools

2021-06-21T22:48:18.173

0 投票

1 回答

115 浏览

r - 如何将pdf的所有页面转换为R中的单页pdf文档

我曾尝试探索 pdftools。它确实有一个 pdf_combine() 函数，可以将多个 pdf 拼接为一个。但是，它无助于将 pdf 文档的多页合并为一页。

r pdf pdftools

2021-07-14T17:59:32.327

0 投票

1 回答

51 浏览

r - 如何系统地从教科书中提取数据

{编辑}大家好！

我正在尝试从教科书（pdf）中系统地提取数据。因为这个任务不容易转化为可重现的例子，我在这里提供了书中的 2 页作为例子。这两页包含一个物种学名（属物种）列表和一系列 2 字符代码。我想从提供的 2 页示例中提取所有物种的学名及其代码。

这是我要提取的示例（物种=绿色，代码=蓝色）：

到目前为止，我已经能够非常可靠地恢复科学名称，但是代码并没有像我想要的那样提取：

从这段代码中，我获得以下内容species_full_df：

（注意顺序没有保留，但大部分物种名称都在里面）

我从以下位置获得这些结果use_full_df：

问题：提取是抓取 3 个字符的代码（我只想提取 2 个字符的使用代码），并且每行只返回一个代码（许多物种有多个代码）。

你能建议如何改进这个过程吗？大概我对正则表达式的使用是可恶的。

先感谢您！

-亚历克斯。

r data-mining stringr regular-language pdftools

2021-07-21T17:49:51.080

0 投票

0 回答

48 浏览

r - R - 使用pdftools检索文本时出错（错误：poppler_pdf_text中的错误（loadfile（pdf），opw，upw）：空间不足）

我在转换似乎与内存相关的 pdf 文件时遇到问题。我看过其他帖子，但不幸的是没有解决这个问题。

我正在尝试从 R 中的大约 5000 个 pdf 中检索文本。下面是我的代码：

在应用该功能的过程中出现以下错误：

poppler_pdf_text（加载文件（pdf），opw，upw）中的错误：空间不足

任何帮助，将不胜感激。

r pdftools

2021-08-10T09:49:43.757

问题标签 [pdftools]

Reference