“pdftools”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1063 浏览

r - 安装 R 包 pdftools 困难

我正在尝试安装 R 包“pdftools”并遇到以下情况：

我在装有 OS X 10.10.5 的 Mac 上使用 R 版本 3.3.3，由于多种原因，目前无法更新我的操作系统。

我验证下载的源包在：/private/var/folders/t3/_mlp_5z15z9_628n5q00pw_s8d_kfs/T/RtmpnJERsz/downloaded_packages
我看到了以下帖子：找不到'jpeglib.h'文件

然后跑了

文件“jpeglib.h”似乎没有列出，但我将它定位在：/anaconda3/pkgs/jpeg-9b-he5867d9_2/include/jpeglib.h

根据其他帖子，我从终端尝试过：

然后重新启动并尝试再次安装 pdftools，结果相同。

也看到了这篇文章，但完全超出了我的想象： https ://www.cocoanetics.com/2012/01/helping-xcode-find-library-headers/

任何简单步骤的解决方案都值得赞赏。

r installation package pdftools

2019-10-20T15:47:25.747

0 投票

0 回答

19 浏览

r - 将流程图作为R中的顺序文本读取

我有一个 PDF 格式的流程图。我想将文本提取为 R 中的顺序数组/向量。有没有一种有效的方法可以做到这一点？

举个例子

我在看我们是否可以有一个向量

r dplyr pdftools

2019-12-12T07:29:48.933

0 投票

0 回答

117 浏览

r - 带有文件路径字符列表的 R for 循环仅在第一个文件上运行

我在 R 中有一个 for 循环和一个字符列表，其中包括我试图从使用 tabulizer 包中提取数据的 pdf 文件。

该循环有效，但仅适用于目录中的第一个 pdf。我对 R 中的循环相当陌生，非常感谢任何帮助。

r pdftools tabulizer

2019-12-15T22:32:51.553

0 投票

1 回答

114 浏览

r - 从 PDF 文件中抓取表格

我正在尝试抓取看起来非常相似的多个 PDF 的第一个表。到目前为止，我已经隔离了表格的页面，将表格转换为字符串并将其加载到R. 此外，我还设法删除了我不感兴趣的表格部分以及标题，因为它似乎会因为尴尬的间距而造成麻烦。

在这一点上，我认为把它变成 a 的最好方法data.frame()是使用read.table()，不幸的是，因为列之间的间距是如此不一致，我无法让它工作。

我感谢任何想法、提示或解决方案。谢谢！

数据

r pdf stringr pdftools

2020-01-14T09:29:31.613

0 投票

1 回答

57 浏览

r - 如何从 html 的 href 链接登陆比特流 url

我正在使用rvest R包从这个exposed url网页上抓取一个 PDF 文件，但是在我点击by name之后，最终链接被暴露（作为比特流 url - 不管它是什么）AC1-96-21-01-2011.pdf。最终的 pdf 文件隐藏在此处，无法访问。这会阻止所有rvest功能尝试，read_html()因为最终的 pdf 文件仅在单击上一个链接 (on href) 时打开。复制粘贴xml node不允许我输入pdf文件的内容。

最终文件位于此 url 上，该 url 未在href节点中公开。 http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf

因此，作为总结，我如何使用上述属性中rvest未找到的 pdf 文件链接访问该链接。href

我试图搜索bitstream，但它把我带到了别的地方。

r rvest bitstream pdftools

2020-01-15T10:30:55.243

0 投票

1 回答

339 浏览

r - R：清理pdf文本

我有需要转换为“整洁”格式的 pdf 文本。但我不确定如何在不影响我需要的信息的情况下阅读 pdf 文本。例如：

使用read_lines()似乎会出错，因为只要“法定名称”列中有两行，它就会弄乱我正在寻找的整洁格式。例如，Loblaw Inc [4] 应该可以很好地清理，因为每个操作名称都用逗号分隔，并且位于 Loblaws 行内，从而为我提供了一个干净的类别。

但是由于 PDF 中的换行符，第一个法定名称类别是错误的 - 即，“Buy-Low Foods Limited Partnership”应该是法定名称，而该类别中的运营名称应该是“AG Foods, Buy-Low Foods , Buy & Save Foods, Fine Foods, G&H Shop N' Save, Nesters Market”。

关于如何正确清理它并获得我正在寻找的整洁格式的任何提示？

r stringr tidytext pdftools

2020-01-28T16:51:51.433

0 投票

2 回答

2199 浏览

r - 有效地使用 pdftools 包中的 pdf_data 函数

最终目标是使用 pdftools 包有效地浏览一千页 pdf 文档，以一致且安全地生成可用的数据框/小标题。我曾尝试使用 tabulizer 包和 pdf_text 函数，但结果不一致。因此，开始通过pdf_data()我更喜欢的功能工作。

对于那些不熟悉 pdf_data 函数的人，它将pdf页面转换为坐标网格，0,0坐标位于页面的左上角。因此，通过排列 x,y 坐标，然后将文档旋转为宽格式，所有信息都会像在页面上一样显示，只有 NA 用于空格

这是一个使用熟悉的 mtcars 数据集的简单示例。

最好不要使用十几个联合函数来重命名各个列。我曾经使用 janitor 包row_to_names()函数将第 1 行转换为列名，效果很好，但也许有人有更好的想法？

中心问题；通过合并多个列或移动列以使 NA 被相邻列填充，从数据集中删除 NA。

我正在努力提高效率。可以使用 purrr 包吗？任何有助于提高此过程效率的帮助将不胜感激。

我对pdf_data()函数的唯一信息来自这里...... https://ropensci.org/technotes/2018/12/14/pdftools-20/ 任何额外的资源也将不胜感激（除了pdftools包帮助文档/文献）。

感谢大家！我希望这也有助于其他人使用pdf_data():)

r pdftools

2020-02-08T13:46:01.543

0 投票

1 回答

86 浏览

r - 使用keyword_search检测pdf时文件名太长？

我正在尝试通过搜索某些关键字来对 pdf 进行一些文本挖掘。

这是我的代码：

但是，我收到文件名太长的错误消息。我怎样才能克服这个问题？

r text-mining pdftools

2020-02-15T01:32:04.270

0 投票

1 回答

437 浏览

r - 为什么 pdftools 中的 pdf_text 只读取我的 pdf 列表中每个 pdf 元素的第一页？

我想创建一个数据框，其中包含我的 pdf 列表中 ech pdf 的所有文本和标题。我制作了一个 for 循环，但是当我打开生成的数据框时，我发现并非每个 pdf 中的所有文本都已处理为文本，而只有最后一页。

这里的代码：

你能帮我解决这个问题吗？谢谢！

r for-loop pdf pdftools

2020-02-15T17:18:21.323

0 投票

0 回答

261 浏览

r - 在R中找到表格的起始坐标

我正在尝试从 R 表的一部分中提取信息。下面的示例表...

与我真正处理的内容相比，这只是一个简单的例子。我正在使用一个非常大的表格，该表格的结构非常奇怪，并且随着每一页的变化而变化。当我使用“extract_tables”函数读取整个表格时，我得到一个非常非结构化的结果，多个表格元素被推入同一行/列。所以我试图只阅读表格的一部分。我正在尝试使用第一个单元格“Here”中的文本来定位表格的位置，因此我可以将其插入“extract_tables”函数的“area”参数中。我不能使用“extract_areas”函数，因为我不想手动提取表。

谁能帮我这个？

r pdftools

2020-03-09T16:13:40.017

问题标签 [pdftools]

Reference