问题标签 [pdftools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
76 浏览

r - 使用嵌套信息在 R 中抓取 PDF

我试图在 R 中同时使用pdftools::pdf_text和来抓取一个相当困难的 PDF tabulizer::extract_tables但是,在我的情况下,根据PDF的性质,这些似乎都没有太大帮助。PDF 包含“嵌套”信息,如图所示。

解决这个问题的最佳方法是什么?stringr::str_split_fixed使用with 用空格分割n=3给了我矩阵,但似乎很难创建一个正则表达式来检测每列中我想要的信息(仅在描述和事件日期/时间之后)。

0 投票
1 回答
47 浏览

r - 如何根据 R 编程中的下一列重命名列标题

如何重命名具有“X 或 X.1 或 X.3”值的列标题,但它应该使用下一列的标题引用和重命名。

代码:

实际输出:

预期输出:

0 投票
2 回答
32 浏览

r - 如果标签名称在R编程中以“G”开头,如何删除列标签

如果标签名称以“G”开头,如何删除列标签

代码:

实际输出:

预期输出:

另外请向我建议从 PDF 中提取数据表的任何其他 R 包(pdftools 和 tabulizer 除外)

0 投票
0 回答
30 浏览

r - 如何在 R 编程中将特定列与其下一列合并而不进行硬编码

如何在R编程中将“X”的列名与其下一列合并而无需硬编码

X 应该合并到 Day.7 X.1
应该合并到 Day.8 X.2
和 X.3 应该合并到 Day.9

代码

输出

预期输出

PDF DATA 在此处添加:

此处添加 PDF DATA

0 投票
1 回答
79 浏览

r - 如果列的值以R中的字符“N”开头,如何替换它

如果列的值(GID)以字符“N”开头,如何替换为 ColB,如果 ColB 在 R 编程中的 Dataframe 中为空

代码:

输出:

预期产出

0 投票
1 回答
37 浏览

r - 从仅 pdf 的英文文本中提取文本 Canadian Legislation R

我正在尝试从加拿大法案中为一个项目(在本例中为食品和药品法案)提取数据,并将其导入 R。我想将其分成两部分。第一个目录(图1)。第二,行为中的信息(图2)。但我不想要法语部分(je suis désolé)。我曾尝试使用 tabulizer extract_area(),但我不想手动选择该区域 90 次(我将为多项立法执行此操作)。

显然我没有一个最小的可重复示例编码出来......但是pdf可以在这里下载:https ://laws-lois.justice.gc.ca/eng/acts/F-27/

选项 2 是编写一些东西以通过 XML 将其提取出来,但我不太习惯使用 XML 文件。pdftools除非使用其中一个或非常烦人,否则tabulizer我更喜欢使用其中一个库(主要用于学习目的)的答案。

我在 stackoverflow 上看到了一些类似的问题,但它们都是为表格编写/设计的,而这不是。我不是受过培训的量化/数据科学研究人员,因此解释会非常有帮助(但不是必需的)。

目录

立法内容

0 投票
0 回答
16 浏览

docker - 如何使用 docker 管理 3-Heights PdfTool 许可证

我想知道这里最好的解决方案是什么。当前将 .NET Core 3.1 应用程序作为 Windows 服务运行,并且它使用在 PDF-Tools 许可证管理器中配置的许可证。我需要对该服务进行 docker 化,但找不到任何有关如何在 Linux docker 映像中设置许可证的信息。有没有办法做到这一点?

0 投票
0 回答
74 浏览

excel - 如何编写 R 代码将 PDF 转换为 Excel (.xlsx)?

我正在尝试将 PDF 文件转换为 excel。我提供了 PDF 前两页的屏幕截图以及我正在寻找的 excel 格式的结果。PDF 的前两页有 25 行条目,在第三张图片中以 excel 格式显示。PDF 的第一页有一些标题(关于公司的信息),PDF 的后续页面没有遵循这些标题。我知道 R 上的 pdftools 和 pdftables 包,但 pdftables 包对可以免费转换的页数有限制。

我使用了 R StackOverflow 中的以下代码(使用 pdftools 遵循 R Script pdf 到 excel)并且没有像我期望的那样划分列(我正在寻找的输出是第三个数字 - 附件图像中的 excel 格式) . 我相信我在下面指定 tx2 和 tx3 的方式有误。在此转换中的任何帮助将不胜感激!谢谢

我正在寻找的原始 PDF 和 excel 格式: 1

0 投票
2 回答
188 浏览

r - 使用空单元格抓取 PDF 表格

我正在使用 R 从 PDF 中提取数据,到目前为止进展顺利。我刚刚打开了一批新的 PDF,发现我必须弄清楚如何计算空单元格。我还没有找到一种方法来做到这一点,而且我有数百页需要浏览。

我已经包含了一些示例数据。我还没有找到在此处附加 PDF 的方法,并且这些 PDF 没有发布在任何地方的网络上。我保存df为 CSV,然后将其复制并粘贴到我保存为 CSV 的 word 文档中。截图也附上。

更新:添加 dput(pdf_file)

您可以看到在这一点上df和之间存在差异。data我已经尝试过一些事情,但我无法让任何事情都足够好地在此处发布。我尝试使用一些 if/else 逻辑来表示如果有 3 个或更多空格,则插入 NA,但这只会导致一堆错误,所以我放弃了这种方法。我的目标是让数据尽可能接近 df。

pdf 格式的 sample_data 图像

0 投票
0 回答
47 浏览

r - 使用 R 读取 PDF 文件中的复选框值

我有许多 PDF 文件,其中包含复选框形式的数据。

我需要阅读这些复选框值(选中/未选中),但我无法弄清楚如何在 R 中执行此操作。

任何帮助将不胜感激。

示例 PDF 在这里