我有一堆 PDF - 可能有数百或数千。它们的格式并不完全相同,但它们中的任何一个都可能有一个或多个包含有趣信息的表,我想将这些信息收集到一个单独的数据库中。
当然,我知道我必须写一些东西才能做到这一点。Perl 对我来说是一个选择——或者也许是 Java。我真的不在乎什么语言,只要它是免费的(或者便宜的免费试用期,以确保它适合我的目的)。
我正在查看 CAM::Parse (使用草莓 Perl),但我不确定如何使用它来定位和提取文件中的表。我想我确实偏爱 Perl,但我真的想要一些可以可靠工作并且相当容易进行字符串操作的东西。
什么是这样的好方法?我站在第一方,所以如果 java(或 python 等)有更好的钩子,现在是了解它的好时机。一般指点好;入门代码将是强烈首选。