问题标签 [pdftools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用嵌套信息在 R 中抓取 PDF
我试图在 R 中同时使用pdftools::pdf_text
和来抓取一个相当困难的 PDF tabulizer::extract_tables
。但是,在我的情况下,根据PDF的性质,这些似乎都没有太大帮助。PDF 包含“嵌套”信息,如图所示。
解决这个问题的最佳方法是什么?stringr::str_split_fixed
使用with 用空格分割n=3
给了我矩阵,但似乎很难创建一个正则表达式来检测每列中我想要的信息(仅在描述和事件日期/时间之后)。
r - 如何根据 R 编程中的下一列重命名列标题
如何重命名具有“X 或 X.1 或 X.3”值的列标题,但它应该使用下一列的标题引用和重命名。
代码:
实际输出:
预期输出:
r - 如果标签名称在R编程中以“G”开头,如何删除列标签
如果标签名称以“G”开头,如何删除列标签
代码:
实际输出:
预期输出:
另外请向我建议从 PDF 中提取数据表的任何其他 R 包(pdftools 和 tabulizer 除外)
r - 如何在 R 编程中将特定列与其下一列合并而不进行硬编码
如何在R编程中将“X”的列名与其下一列合并而无需硬编码
X 应该合并到 Day.7 X.1
应该合并到 Day.8 X.2
和 X.3 应该合并到 Day.9
代码:
输出:
预期输出:
PDF DATA 在此处添加:
r - 如果列的值以R中的字符“N”开头,如何替换它
如果列的值(GID)以字符“N”开头,如何替换为 ColB,如果 ColB 在 R 编程中的 Dataframe 中为空
代码:
输出:
预期产出
r - 从仅 pdf 的英文文本中提取文本 Canadian Legislation R
我正在尝试从加拿大法案中为一个项目(在本例中为食品和药品法案)提取数据,并将其导入 R。我想将其分成两部分。第一个目录(图1)。第二,行为中的信息(图2)。但我不想要法语部分(je suis désolé)。我曾尝试使用 tabulizer extract_area()
,但我不想手动选择该区域 90 次(我将为多项立法执行此操作)。
显然我没有一个最小的可重复示例编码出来......但是pdf可以在这里下载:https ://laws-lois.justice.gc.ca/eng/acts/F-27/
选项 2 是编写一些东西以通过 XML 将其提取出来,但我不太习惯使用 XML 文件。pdftools
除非使用其中一个或非常烦人,否则tabulizer
我更喜欢使用其中一个库(主要用于学习目的)的答案。
我在 stackoverflow 上看到了一些类似的问题,但它们都是为表格编写/设计的,而这不是。我不是受过培训的量化/数据科学研究人员,因此解释会非常有帮助(但不是必需的)。
docker - 如何使用 docker 管理 3-Heights PdfTool 许可证
我想知道这里最好的解决方案是什么。当前将 .NET Core 3.1 应用程序作为 Windows 服务运行,并且它使用在 PDF-Tools 许可证管理器中配置的许可证。我需要对该服务进行 docker 化,但找不到任何有关如何在 Linux docker 映像中设置许可证的信息。有没有办法做到这一点?
excel - 如何编写 R 代码将 PDF 转换为 Excel (.xlsx)?
我正在尝试将 PDF 文件转换为 excel。我提供了 PDF 前两页的屏幕截图以及我正在寻找的 excel 格式的结果。PDF 的前两页有 25 行条目,在第三张图片中以 excel 格式显示。PDF 的第一页有一些标题(关于公司的信息),PDF 的后续页面没有遵循这些标题。我知道 R 上的 pdftools 和 pdftables 包,但 pdftables 包对可以免费转换的页数有限制。
我使用了 R StackOverflow 中的以下代码(使用 pdftools 遵循 R Script pdf 到 excel)并且没有像我期望的那样划分列(我正在寻找的输出是第三个数字 - 附件图像中的 excel 格式) . 我相信我在下面指定 tx2 和 tx3 的方式有误。在此转换中的任何帮助将不胜感激!谢谢
我正在寻找的原始 PDF 和 excel 格式:
r - 使用空单元格抓取 PDF 表格
我正在使用 R 从 PDF 中提取数据,到目前为止进展顺利。我刚刚打开了一批新的 PDF,发现我必须弄清楚如何计算空单元格。我还没有找到一种方法来做到这一点,而且我有数百页需要浏览。
我已经包含了一些示例数据。我还没有找到在此处附加 PDF 的方法,并且这些 PDF 没有发布在任何地方的网络上。我保存df
为 CSV,然后将其复制并粘贴到我保存为 CSV 的 word 文档中。截图也附上。
更新:添加 dput(pdf_file)
您可以看到在这一点上df
和之间存在差异。data
我已经尝试过一些事情,但我无法让任何事情都足够好地在此处发布。我尝试使用一些 if/else 逻辑来表示如果有 3 个或更多空格,则插入 NA,但这只会导致一堆错误,所以我放弃了这种方法。我的目标是让数据尽可能接近 df。