“tabulizer”的相关标签问题

0 投票

0 回答

30 浏览

r - 如何在 R 编程中将特定列与其下一列合并而不进行硬编码

如何在R编程中将“X”的列名与其下一列合并而无需硬编码

X 应该合并到 Day.7 X.1
应该合并到 Day.8 X.2
和 X.3 应该合并到 Day.9

代码：

输出：

预期输出：

PDF DATA 在此处添加：

此处添加 PDF DATA

r tabulizer pdftools

2021-01-25T07:26:14.827

0 投票

1 回答

79 浏览

r - 如果列的值以R中的字符“N”开头，如何替换它

如果列的值（GID）以字符“N”开头，如何替换为 ColB，如果 ColB 在 R 编程中的 Dataframe 中为空

代码：

输出：

预期产出

r tabulizer pdftools

2021-02-04T07:58:20.267

0 投票

2 回答

76 浏览

r - 如果任何列在R编程中为空，如何替换同一行中的“N”

如果任何一列为空，如何替换同一行中“GID”列中的字符“N”

输出：

预期输出：

数据：

r dataframe tabulizer

2021-02-04T11:04:21.597

0 投票

1 回答

37 浏览

r - 从仅 pdf 的英文文本中提取文本 Canadian Legislation R

我正在尝试从加拿大法案中为一个项目（在本例中为食品和药品法案）提取数据，并将其导入 R。我想将其分成两部分。第一个目录（图1）。第二，行为中的信息（图2）。但我不想要法语部分（je suis désolé）。我曾尝试使用 tabulizer extract_area()，但我不想手动选择该区域 90 次（我将为多项立法执行此操作）。

显然我没有一个最小的可重复示例编码出来......但是pdf可以在这里下载：https ://laws-lois.justice.gc.ca/eng/acts/F-27/

选项 2 是编写一些东西以通过 XML 将其提取出来，但我不太习惯使用 XML 文件。pdftools除非使用其中一个或非常烦人，否则tabulizer我更喜欢使用其中一个库（主要用于学习目的）的答案。

我在 stackoverflow 上看到了一些类似的问题，但它们都是为表格编写/设计的，而这不是。我不是受过培训的量化/数据科学研究人员，因此解释会非常有帮助（但不是必需的）。

r pdftotext tabulizer pdftools

2021-02-27T03:52:40.707

0 投票

0 回答

113 浏览

rjava - “加载制表程序库时出现问题，出现类加载器错误

你能帮我解决安装tabulizer（和tabulizerjars，任何一个都在工作）时遇到的问题吗？

我正确安装了 RJava 库。我有 rJava 0.9-13 2020-07-06 [1] CRAN (R 4.0.3)。我下载并安装了 jdk-11.0.10_windows-x64 我收到此错误消息： library(tabulizer) Erreur : package or namespace load failed for 'tabulizer': .onLoad a échoué dans loadNamespace() pour 'tabulizerjars', 详细信息 : appel : .jinit() erreur：无法创建 Java 类加载器。当我尝试安装 Tabulizerjars 库时，我也收到消息错误警告：初始 Java 12 版本破坏了 JNI 支持并且不起作用。使用稳定的 Java 11（如果可用，请注意 12u）。错误：在 rJava 引导期间发生 Java 异常 - 请参阅标准错误以了解 Java 堆栈跟踪。线程“main”中的异常 java.lang.NoClassDefFoundError: RJavaClassLoader 原因：java.lang.ClassNotFoundException: RJavaClassLoader at java.base/jdk.internal.loader。BuiltinClassLoader.loadClass(BuiltinClassLoader.java:581) 在 java.base/jdk.internal.loader.ClassLoaders$AppClassLoader.loadClass(ClassLoaders.java:178) 在 java.base/java.lang.ClassLoader.loadClass(ClassLoader.java: 521) 警告：初始 Java 12 版本已破坏 JNI 支持并且无法正常工作。使用稳定的 Java 11（如果可用，请注意 12u）。错误：在 rJava 引导期间发生 Java 异常 - 请参阅标准错误以了解 Java 堆栈跟踪。java.base/java.lang.reflect.AccessibleObject.checkCanSetAccessible(AccessibleObject.java:290) 在 java.base/java.lang.reflect.AccessibleObject.checkCanSetAccessible(AccessibleObject.java) 的线程“主”java.lang.NullPointerException 中的异常:280) 在 java.base/java.lang.reflect.Method.checkCanSetAccessible(Method.java:198) 在 java.base/java.lang.reflect.Method.setAccessible(Method.java:192) 错误：

您系统的会话信息 • 会话信息 ------------------------------------------ ---------- 设置值版本 R version 4.0.4 (2021-02-15) os Windows 10 x64 system x86_64, mingw32 ui RStudio language (EN) collate French_Canada.1252 ctype French_Canada.1252 tz America/ New_York 日期2021-03-11

rjava tabulizer

2021-03-15T14:12:42.827

0 投票

1 回答

138 浏览

r - 尝试从具有不同表格格式的长 PDF 中抓取

我正在尝试从此处提供的 276 页 PDF 中抓取：https ://www.acf.hhs.gov/sites/default/files/documents/ocse/fy_2018_annual_report.pdf

文档不仅很长，而且还有不同格式的表格。我尝试使用 tabulizer 库中的 extract_tables() 函数。这成功地抓取了从文档第 143 页开始的数据表，但不适用于第 18-75 页上的表。这些页面是不可擦除的吗？如果是，为什么？

我收到错误消息，提示“列多于列名”和“不允许重复的 'row.names'”

r pdf data-extraction pdf-scraping tabulizer

2021-04-29T19:03:15.470

0 投票

1 回答

44 浏览

r - 部署可以在应用程序本身内部调用 runApp() 的闪亮应用程序（特别是用于制表程序包）

我正在尝试部署一个 Shiny 应用程序，该应用程序允许用户上传 pdf 文档并从所选页面中提取表格。为此，我正在使用 package tabulizer。一个基本的可重现示例：

如果我在本地运行它，locate_area()它将在我的 RStudio 中的查看器上弹出 pdf 页面，一切都很好。但是，如果我发布应用程序，单击操作按钮后它不会运行。我知道问题来自于，因为它本质上在闪亮的应用程序中locate_area()调用了另一个。runApp我尝试使用不同的小部件locate_area()无济于事。有人知道绕过这个问题的方法吗？

r shiny tabulizer

2021-07-31T19:26:40.780

0 投票

1 回答

66 浏览

r - 如果后跟 R 中的空行，则将多行数据帧合并在一起

我有以下数据框：

不幸的是，由于tabulizer::extract_table（参见此线程）的提取问题，数据框不干净。

一个数据点跨越多行，然后是空行（屏幕截图中的第 20 和 26 行）：

如果它们之后有一个空行（或者如果之后没有行，如数据框的最后一行），是否可以自动将多行合并为一行？

换言之，第 13-19 行应形成单行，第 21-25 行也应作为单行。列是正确的。

我将不胜感激您的帮助！

r dataframe merge data-cleaning tabulizer

2021-08-24T09:45:38.553

0 投票

0 回答

53 浏览

r - 从 Pdf R Tabulizer 中提取表格时出现空字符

我一直在尝试从单个 pdf 文件中提取大量表并将它们组合成 R 中的一个。我现在的问题是，当使用extract_tables()某些表时读取没有问题，有些有或多或少的行和一些出现为空。Pdf 文件中的表格具有相同的行，但列数不同。我一直在使用 pdftools 和 tabulizer 的组合来做到这一点。

我的问题是，我从 R 获得的列表元素有一些字符显示为空，而一些字符则更改了行号，因此我无法将它们与 cbind 结合使用。我不确定这是为什么。我检查了pdf，数据似乎是一样的。我可以选择文本等。所以我不知道问题是什么以及如何解决它。有谁知道为什么exctract_tables()不挑选那些表？

澄清一下： pdf 文件包含 800 多个 pdf 表格，它们的格式类似于：

标准	汉诺威	波茨坦
人口	400	300
男士	199	120
女性	201	180

但是，这些表格可能会显示不同数量的城市。行相同，但列不同。

当我运行代码的第一部分时exctract_tables()，我得到一个字符向量列表，如下所示：

这意味着第三个表显示为空。我检查了该文件，它看起来和其他所有文件一样，我可以在其中标记文本，所以我不明白为什么制表器不选择它。有人知道为什么吗？由于我有大量表，我真的很想提取所有表并将它们自动附加到另一个表。到目前为止，我唯一能想到的其他解决方案是检索错误编号的表格列表并手动提取它们。

r pdf pdf-extraction pdftools tabulizer

2021-08-31T06:46:30.120

0 投票

0 回答

20 浏览

r - 如何摆脱错误“输入中没有可用的行”？

我正在使用extract_tabletabulizer 包的功能将 pdf 转换为数据框，但不断收到没有可用行的错误。我在 3 个 pdf 文件上运行了代码。我为第一个 pdf 完美运行，但在剩余的 2 个文件上出错。

错误发生在第一行代码中。请帮忙。

r pdf tabulizer

2021-09-22T12:38:40.127

问题标签 [tabulizer]

Reference