问题标签 [pdftools]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

79 问题

0 投票

1 回答

76 浏览

r - 使用嵌套信息在 R 中抓取 PDF

我试图在 R 中同时使用pdftools::pdf_text和来抓取一个相当困难的 PDF tabulizer::extract_tables。但是，在我的情况下，根据PDF的性质，这些似乎都没有太大帮助。PDF 包含“嵌套”信息，如图所示。

解决这个问题的最佳方法是什么？stringr::str_split_fixed使用with 用空格分割n=3给了我矩阵，但似乎很难创建一个正则表达式来检测每列中我想要的信息（仅在描述和事件日期/时间之后）。

2021-01-20T20:05:43.293

0 投票

1 回答

47 浏览

r - 如何根据 R 编程中的下一列重命名列标题

如何重命名具有“X 或 X.1 或 X.3”值的列标题，但它应该使用下一列的标题引用和重命名。

代码：

实际输出：

预期输出：

r dplyr pdftools tabulizer

2021-01-21T12:45:57.987

0 投票

2 回答

32 浏览

r - 如果标签名称在R编程中以“G”开头，如何删除列标签

如果标签名称以“G”开头，如何删除列标签

代码：

实际输出：

预期输出：

另外请向我建议从 PDF 中提取数据表的任何其他 R 包（pdftools 和 tabulizer 除外）

r dataframe pdftools tabulizer

2021-01-22T15:10:13.297

0 投票

0 回答

30 浏览

r - 如何在 R 编程中将特定列与其下一列合并而不进行硬编码

如何在R编程中将“X”的列名与其下一列合并而无需硬编码

X 应该合并到 Day.7 X.1
应该合并到 Day.8 X.2
和 X.3 应该合并到 Day.9

代码：

输出：

预期输出：

PDF DATA 在此处添加：

此处添加 PDF DATA

r tabulizer pdftools

2021-01-25T07:26:14.827

0 投票

1 回答

79 浏览

r - 如果列的值以R中的字符“N”开头，如何替换它

如果列的值（GID）以字符“N”开头，如何替换为 ColB，如果 ColB 在 R 编程中的 Dataframe 中为空

代码：

输出：

预期产出

r tabulizer pdftools

2021-02-04T07:58:20.267

0 投票

1 回答

37 浏览

r - 从仅 pdf 的英文文本中提取文本 Canadian Legislation R

我正在尝试从加拿大法案中为一个项目（在本例中为食品和药品法案）提取数据，并将其导入 R。我想将其分成两部分。第一个目录（图1）。第二，行为中的信息（图2）。但我不想要法语部分（je suis désolé）。我曾尝试使用 tabulizer extract_area()，但我不想手动选择该区域 90 次（我将为多项立法执行此操作）。

显然我没有一个最小的可重复示例编码出来......但是pdf可以在这里下载：https ://laws-lois.justice.gc.ca/eng/acts/F-27/

选项 2 是编写一些东西以通过 XML 将其提取出来，但我不太习惯使用 XML 文件。pdftools除非使用其中一个或非常烦人，否则tabulizer我更喜欢使用其中一个库（主要用于学习目的）的答案。

我在 stackoverflow 上看到了一些类似的问题，但它们都是为表格编写/设计的，而这不是。我不是受过培训的量化/数据科学研究人员，因此解释会非常有帮助（但不是必需的）。

r pdftotext tabulizer pdftools

2021-02-27T03:52:40.707

0 投票

0 回答

16 浏览

docker - 如何使用 docker 管理 3-Heights PdfTool 许可证

我想知道这里最好的解决方案是什么。当前将 .NET Core 3.1 应用程序作为 Windows 服务运行，并且它使用在 PDF-Tools 许可证管理器中配置的许可证。我需要对该服务进行 docker 化，但找不到任何有关如何在 Linux docker 映像中设置许可证的信息。有没有办法做到这一点？

docker .net-core pdftools

2021-03-10T15:18:53.550

0 投票

0 回答

74 浏览

excel - 如何编写 R 代码将 PDF 转换为 Excel (.xlsx)？

我正在尝试将 PDF 文件转换为 excel。我提供了 PDF 前两页的屏幕截图以及我正在寻找的 excel 格式的结果。PDF 的前两页有 25 行条目，在第三张图片中以 excel 格式显示。PDF 的第一页有一些标题（关于公司的信息），PDF 的后续页面没有遵循这些标题。我知道 R 上的 pdftools 和 pdftables 包，但 pdftables 包对可以免费转换的页数有限制。

我使用了 R StackOverflow 中的以下代码（使用 pdftools 遵循 R Script pdf 到 excel）并且没有像我期望的那样划分列（我正在寻找的输出是第三个数字 - 附件图像中的 excel 格式） . 我相信我在下面指定 tx2 和 tx3 的方式有误。在此转换中的任何帮助将不胜感激！谢谢

我正在寻找的原始 PDF 和 excel 格式：

excel pdftools

2021-03-25T20:22:56.000

0 投票

2 回答

188 浏览

r - 使用空单元格抓取 PDF 表格

我正在使用 R 从 PDF 中提取数据，到目前为止进展顺利。我刚刚打开了一批新的 PDF，发现我必须弄清楚如何计算空单元格。我还没有找到一种方法来做到这一点，而且我有数百页需要浏览。

我已经包含了一些示例数据。我还没有找到在此处附加 PDF 的方法，并且这些 PDF 没有发布在任何地方的网络上。我保存df为 CSV，然后将其复制并粘贴到我保存为 CSV 的 word 文档中。截图也附上。

更新：添加 dput(pdf_file)

您可以看到在这一点上df和之间存在差异。data我已经尝试过一些事情，但我无法让任何事情都足够好地在此处发布。我尝试使用一些 if/else 逻辑来表示如果有 3 个或更多空格，则插入 NA，但这只会导致一堆错误，所以我放弃了这种方法。我的目标是让数据尽可能接近 df。

r pdf pdftools

2021-04-01T00:34:24.947

0 投票

0 回答

47 浏览

r - 使用 R 读取 PDF 文件中的复选框值

我有许多 PDF 文件，其中包含复选框形式的数据。

我需要阅读这些复选框值（选中/未选中），但我无法弄清楚如何在 R 中执行此操作。

任何帮助将不胜感激。

示例 PDF 在这里。

r pdf pdftools

2021-04-02T20:43:46.467

1 2 3 4 5 6 7 8 9 10

问题标签 [pdftools]

Reference