我有大约 1'500 个 PDF,每个仅包含 1 页,并且具有相同的结构(例如,请参阅http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf)。
我正在寻找的是一种遍历所有这些文件的方法(如果可能,在本地)并提取表的实际内容(作为 CSV,存储到 SQLite DB 中,等等)。
我很想在 Node.js 中执行此操作,但找不到任何合适的库来解析此类内容。你知道吗?
如果在 Node.js 中不可能,如果有更好的方法可用,我也可以用 Python 编写代码。