我正在尝试从加拿大法案中为一个项目(在本例中为食品和药品法案)提取数据,并将其导入 R。我想将其分成两部分。第一个目录(图1)。第二,行为中的信息(图2)。但我不想要法语部分(je suis désolé)。我曾尝试使用 tabulizer extract_area()
,但我不想手动选择该区域 90 次(我将为多项立法执行此操作)。
显然我没有一个最小的可重复示例编码出来......但是pdf可以在这里下载:https ://laws-lois.justice.gc.ca/eng/acts/F-27/
选项 2 是编写一些东西以通过 XML 将其提取出来,但我不太习惯使用 XML 文件。pdftools
除非使用其中一个或非常烦人,否则tabulizer
我更喜欢使用其中一个库(主要用于学习目的)的答案。
我在 stackoverflow 上看到了一些类似的问题,但它们都是为表格编写/设计的,而这不是。我不是受过培训的量化/数据科学研究人员,因此解释会非常有帮助(但不是必需的)。