我有一个 pdf 文件,它有 300 页,每组页面都包含一个人的识别信息,例如社会安全号码。
假设 1-4 的页面用于社交号码 987-65-4320,5-6 的页面用于 987-65-4321
我想提取从第一个社交号码位置 到第二个社交号码位置的第一个员工的所有信息,然后将它们保存在一个新的 pdf 文件中。
我看到的所有示例都是关于从 pdf 文件中提取所有文本,而不是基于像这样的特定标准:
请告知如何做到这一点。
我有一个 pdf 文件,它有 300 页,每组页面都包含一个人的识别信息,例如社会安全号码。
假设 1-4 的页面用于社交号码 987-65-4320,5-6 的页面用于 987-65-4321
我想提取从第一个社交号码位置 到第二个社交号码位置的第一个员工的所有信息,然后将它们保存在一个新的 pdf 文件中。
我看到的所有示例都是关于从 pdf 文件中提取所有文本,而不是基于像这样的特定标准:
请告知如何做到这一点。
这不是一种自动化技术,但您能否获取文本(我可能只是将 pdf 复制粘贴到文本文件中),并使用正则表达式查找您想要的信息?
在 Java 中,一些解析可能如下所示:
// Matches 3 digits, a dash, 2 digits, a dash, and four digits, and then all text
// until it finds another SSN
String text = "987-65-4320 some info 987-65-4321 other \ninfo";
Pattern p = Pattern.compile("(\\d{3}-\\d{2}-\\d{4})((?:.(?!\\d{3}-\\d{2}-\\d{4}))*)", Pattern.DOTALL);
Matcher m = p.matcher(text);
while (m.find())
System.out.println(m.group(1) + ": " + m.group(2));
但是没有看到您要保存的信息,我无法帮助您获取它。
如果我想要一个新的 PDF,我会将信息放入 Microsoft Word 或 Google Docs 并保存一个 PDF。
或者,如果您只想从一系列员工中“提取所有信息”,那么创建一个删除了一些页面的原始 PDF 副本是否可行?我见过允许您这样做的网站,但 Chrome 的(您可以使用它毫无问题地打开本地 PDF)打印对话框可以让您指定一系列页面,并将其保存为 PDF。