问题标签 [pdftools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1063 浏览

r - 安装 R 包 pdftools 困难

我正在尝试安装 R 包“pdftools”并遇到以下情况:

我在装有 OS X 10.10.5 的 Mac 上使用 R 版本 3.3.3,由于多种原因,目前无法更新我的操作系统。

  1. 我验证下载的源包在:/private/var/folders/t3/_mlp_5z15z9_628n5q00pw_s8d_kfs/T/RtmpnJERsz/downloaded_pa​​ckages

  2. 我看到了以下帖子: 找不到'jpeglib.h'文件

然后跑了

文件“jpeglib.h”似乎没有列出,但我将它定位在:/anaconda3/pkgs/jpeg-9b-he5867d9_2/include/jpeglib.h

  1. 根据其他帖子,我从终端尝试过:

然后重新启动并尝试再次安装 pdftools,结果相同。

  1. 也看到了这篇文章,但完全超出了我的想象: https ://www.cocoanetics.com/2012/01/helping-xcode-find-library-headers/

任何简单步骤的解决方案都值得赞赏。

0 投票
0 回答
19 浏览

r - 将流程图作为R中的顺序文本读取

我有一个 PDF 格式的流程图。我想将文本提取为 R 中的顺序数组/向量。有没有一种有效的方法可以做到这一点?

举个例子

在此处输入图像描述

我在看我们是否可以有一个向量

0 投票
0 回答
117 浏览

r - 带有文件路径字符列表的 R for 循环仅在第一个文件上运行

我在 R 中有一个 for 循环和一个字符列表,其中包括我试图从使用 tabulizer 包中提取数据的 pdf 文件。

该循环有效,但仅适用于目录中的第一个 pdf。我对 R 中的循环相当陌生,非常感谢任何帮助。

0 投票
1 回答
114 浏览

r - 从 PDF 文件中抓取表格

我正在尝试抓取看起来非常相似的多个 PDF 的第一个表。到目前为止,我已经隔离了表格的页面,将表格转换为字符串并将其加载到R. 此外,我还设法删除了我不感兴趣的表格部分以及标题,因为它似乎会因为尴尬的间距而造成麻烦。

在这一点上,我认为把它变成 a 的最好方法data.frame()是使用read.table(),不幸的是,因为列之间的间距是如此不一致,我无法让它工作。

我感谢任何想法、提示或解决方案。谢谢!


数据

0 投票
1 回答
57 浏览

r - 如何从 html 的 href 链接登陆比特流 url

我正在使用rvest R包从这个exposed url网页上抓取一个 PDF 文件,但是在我点击by name之后,最终链接被暴露(作为比特流 url - 不管它是什么)AC1-96-21-01-2011.pdf。最终的 pdf 文件隐藏在此处,无法访问。这会阻止所有rvest功能尝试,read_html()因为最终的 pdf 文件仅在单击上一个链接 (on href) 时打开。复制粘贴xml node不允许我输入pdf文件的内容。

最终文件位于此 url 上,该 url 未在href节点中公开。 http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf

因此,作为总结,我如何使用上述属性中rvest未找到的 pdf 文件链接访问该链接。href

我试图搜索bitstream,但它把我带到了别的地方。

0 投票
1 回答
339 浏览

r - R:清理pdf文本

我有需要转换为“整洁”格式的 pdf 文本。但我不确定如何在不影响我需要的信息的情况下阅读 pdf 文本。例如:

使用read_lines()似乎会出错,因为只要“法定名称”列中有两行,它就会弄乱我正在寻找的整洁格式。例如,Loblaw Inc [4] 应该可以很好地清理,因为每个操作名称都用逗号分隔,并且位于 Loblaws 行内,从而为我提供了一个干净的类别。

但是由于 PDF 中的换行符,第一个法定名称类别是错误的 - 即,“Buy-Low Foods Limited Partnership”应该是法定名称,而该类别中的运营名称应该是“AG Foods, Buy-Low Foods , Buy & Save Foods, Fine Foods, G&H Shop N' Save, Nesters Market”。

关于如何正确清理它并获得我正在寻找的整洁格式的任何提示?

0 投票
2 回答
2199 浏览

r - 有效地使用 pdftools 包中的 pdf_data 函数

最终目标是使用 pdftools 包有效地浏览一千页 pdf 文档,以一致且安全地生成可用的数据框/小标题。我曾尝试使用 tabulizer 包和 pdf_text 函数,但结果不一致。因此,开始通过pdf_data()我更喜欢的功能工作。

对于那些不熟悉 pdf_data 函数的人,它将pdf页面转换为坐标网格,0,0坐标位于页面的左上角。因此,通过排列 x,y 坐标,然后将文档旋转为宽格式,所有信息都会像在页面上一样显示,只有 NA 用于空格

这是一个使用熟悉的 mtcars 数据集的简单示例。

最好不要使用十几个联合函数来重命名各个列。我曾经使用 janitor 包row_to_names()函数将第 1 行转换为列名,效果很好,但也许有人有更好的想法?

中心问题;通过合并多个列或移动列以使 NA 被相邻列填充,从数据集中删除 NA。

我正在努力提高效率。可以使用 purrr 包吗?任何有助于提高此过程效率的帮助将不胜感激。

我对pdf_data()函数的唯一信息来自这里...... https://ropensci.org/technotes/2018/12/14/pdftools-20/ 任何额外的资源也将不胜感激(除了pdftools包帮助文档/文献)。

感谢大家!我希望这也有助于其他人使用pdf_data():)

0 投票
1 回答
86 浏览

r - 使用keyword_search检测pdf时文件名太长?

我正在尝试通过搜索某些关键字来对 pdf 进行一些文本挖掘。

这是我的代码:

但是,我收到文件名太长的错误消息。我怎样才能克服这个问题?

0 投票
1 回答
437 浏览

r - 为什么 pdftools 中的 pdf_text 只读取我的 pdf 列表中每个 pdf 元素的第一页?

我想创建一个数据框,其中包含我的 pdf 列表中 ech pdf 的所有文本和标题。我制作了一个 for 循环,但是当我打开生成的数据框时,我发现并非每个 pdf 中的所有文本都已处理为文本,而只有最后一页。

这里的代码:

你能帮我解决这个问题吗?谢谢!

0 投票
0 回答
261 浏览

r - 在R中找到表格的起始坐标

我正在尝试从 R 表的一部分中提取信息。下面的示例表...

在此处输入图像描述

与我真正处理的内容相比,这只是一个简单的例子。我正在使用一个非常大的表格,该表格的结构非常奇怪,并且随着每一页的变化而变化。当我使用“extract_tables”函数读取整个表格时,我得到一个非常非结构化的结果,多个表格元素被推入同一行/列。所以我试图只阅读表格的一部分。我正在尝试使用第一个单元格“Here”中的文本来定位表格的位置,因此我可以将其插入“extract_tables”函数的“area”参数中。我不能使用“extract_areas”函数,因为我不想手动提取表。

谁能帮我这个?