问题标签 [pdftools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 安装 R 包 pdftools 困难
我正在尝试安装 R 包“pdftools”并遇到以下情况:
我在装有 OS X 10.10.5 的 Mac 上使用 R 版本 3.3.3,由于多种原因,目前无法更新我的操作系统。
我验证下载的源包在:/private/var/folders/t3/_mlp_5z15z9_628n5q00pw_s8d_kfs/T/RtmpnJERsz/downloaded_packages
我看到了以下帖子: 找不到'jpeglib.h'文件
然后跑了
文件“jpeglib.h”似乎没有列出,但我将它定位在:/anaconda3/pkgs/jpeg-9b-he5867d9_2/include/jpeglib.h
- 根据其他帖子,我从终端尝试过:
然后重新启动并尝试再次安装 pdftools,结果相同。
- 也看到了这篇文章,但完全超出了我的想象: https ://www.cocoanetics.com/2012/01/helping-xcode-find-library-headers/
任何简单步骤的解决方案都值得赞赏。
r - 带有文件路径字符列表的 R for 循环仅在第一个文件上运行
我在 R 中有一个 for 循环和一个字符列表,其中包括我试图从使用 tabulizer 包中提取数据的 pdf 文件。
该循环有效,但仅适用于目录中的第一个 pdf。我对 R 中的循环相当陌生,非常感谢任何帮助。
r - 从 PDF 文件中抓取表格
我正在尝试抓取看起来非常相似的多个 PDF 的第一个表。到目前为止,我已经隔离了表格的页面,将表格转换为字符串并将其加载到R
. 此外,我还设法删除了我不感兴趣的表格部分以及标题,因为它似乎会因为尴尬的间距而造成麻烦。
在这一点上,我认为把它变成 a 的最好方法data.frame()
是使用read.table()
,不幸的是,因为列之间的间距是如此不一致,我无法让它工作。
我感谢任何想法、提示或解决方案。谢谢!
数据
r - 如何从 html 的 href 链接登陆比特流 url
我正在使用rvest
R
包从这个exposed url
网页上抓取一个 PDF 文件,但是在我点击by name之后,最终链接被暴露(作为比特流 url - 不管它是什么)AC1-96-21-01-2011.pdf
。最终的 pdf 文件隐藏在此处,无法访问。这会阻止所有rvest
功能尝试,read_html()
因为最终的 pdf 文件仅在单击上一个链接 (on href
) 时打开。复制粘贴xml node
不允许我输入pdf文件的内容。
最终文件位于此 url 上,该 url 未在href
节点中公开。
http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf
因此,作为总结,我如何使用上述属性中rvest
未找到的 pdf 文件链接访问该链接。href
我试图搜索bitstream
,但它把我带到了别的地方。
r - R:清理pdf文本
我有需要转换为“整洁”格式的 pdf 文本。但我不确定如何在不影响我需要的信息的情况下阅读 pdf 文本。例如:
使用read_lines()
似乎会出错,因为只要“法定名称”列中有两行,它就会弄乱我正在寻找的整洁格式。例如,Loblaw Inc [4] 应该可以很好地清理,因为每个操作名称都用逗号分隔,并且位于 Loblaws 行内,从而为我提供了一个干净的类别。
但是由于 PDF 中的换行符,第一个法定名称类别是错误的 - 即,“Buy-Low Foods Limited Partnership”应该是法定名称,而该类别中的运营名称应该是“AG Foods, Buy-Low Foods , Buy & Save Foods, Fine Foods, G&H Shop N' Save, Nesters Market”。
关于如何正确清理它并获得我正在寻找的整洁格式的任何提示?
r - 有效地使用 pdftools 包中的 pdf_data 函数
最终目标是使用 pdftools 包有效地浏览一千页 pdf 文档,以一致且安全地生成可用的数据框/小标题。我曾尝试使用 tabulizer 包和 pdf_text 函数,但结果不一致。因此,开始通过pdf_data()
我更喜欢的功能工作。
对于那些不熟悉 pdf_data 函数的人,它将pdf页面转换为坐标网格,0,0坐标位于页面的左上角。因此,通过排列 x,y 坐标,然后将文档旋转为宽格式,所有信息都会像在页面上一样显示,只有 NA 用于空格
这是一个使用熟悉的 mtcars 数据集的简单示例。
最好不要使用十几个联合函数来重命名各个列。我曾经使用 janitor 包row_to_names()
函数将第 1 行转换为列名,效果很好,但也许有人有更好的想法?
中心问题;通过合并多个列或移动列以使 NA 被相邻列填充,从数据集中删除 NA。
我正在努力提高效率。可以使用 purrr 包吗?任何有助于提高此过程效率的帮助将不胜感激。
我对pdf_data()
函数的唯一信息来自这里......
https://ropensci.org/technotes/2018/12/14/pdftools-20/
任何额外的资源也将不胜感激(除了pdftools包帮助文档/文献)。
感谢大家!我希望这也有助于其他人使用pdf_data()
:)
r - 使用keyword_search检测pdf时文件名太长?
我正在尝试通过搜索某些关键字来对 pdf 进行一些文本挖掘。
这是我的代码:
但是,我收到文件名太长的错误消息。我怎样才能克服这个问题?
r - 为什么 pdftools 中的 pdf_text 只读取我的 pdf 列表中每个 pdf 元素的第一页?
我想创建一个数据框,其中包含我的 pdf 列表中 ech pdf 的所有文本和标题。我制作了一个 for 循环,但是当我打开生成的数据框时,我发现并非每个 pdf 中的所有文本都已处理为文本,而只有最后一页。
这里的代码:
你能帮我解决这个问题吗?谢谢!