我正在寻找一种将 PDF 文档转换为多个 ics 文件的方法,员工可以使用这些文件将他们的两周花名册添加到他们的智能手机日历或桌面上的 Outlook 日历中。创建多个文件所需的信息将从 PDF 中提取,方法是从每列中搜索选定的首字母,然后引用与首字母相同的行中的数据。他们是特定的顺序吗?我需要将数据显示在 ics 文件中以允许将其导入智能手机日历吗?
2 回答
您可以搜索 pdf API 以了解有关以编程方式处理 pdf 的更多详细信息。
这里有一些可以提供帮助的在线转换器。他们将pdf转换为word
http://www.pdftoword.com/success.aspx
http://www.pdfescape.com/account/?expired
但是,从 PDF 重构结构化数据并非易事,因为程序必须在布局中扣除语义。所以大多数程序只能从 pdf 中恢复分散的数据。
我已经使用 PERL 和 windows Adobe PDF 查看器来突出显示 PDF 中的所有文本并剪切并粘贴到文本文件中。正如前面的答案所说,您必须编写 PERL(或任何其他文本处理语言)来挑选您拥有的 PDF 格式。然后您可以使用 PERL 将其打印为 csv 或 ical 或您想要的任何格式。我已经在 github.com 上分享了我的代码。我不确定你是否了解 GIT,但如果你希望我在 GIT 之外发送 PERL 代码,请给我发私信。
我转换的PDF在这里:
http://recplexonline.com/sports/hockey/old-geezers-hockey-35
我的 PERL 代码的 Git 中心和我使用的输入文件在这里:
https://github.com/jdeltoft/PdfParse
这是非常丑陋的perl,对此感到抱歉。但它有效。我会尽快清理它。