Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在处理一个会计应用程序。用户将在应用程序中上传所需的 pdf 或 doc 银行对帐单。我需要阅读/解析文档并在数据库中插入金额/支票号码等...(根据我的数据库结构)。
请帮助实现同样的目标。
我已经在这个问题上工作了两个多星期了,我不得不说这是一项艰巨的任务。我已经成功地找到了一个 php 类来提取文本,但问题是它不适用于它命中和错过的每个版本的 .pdf 格式。自己鼓起来需要一段时间才能弄清楚编码和压缩问题。现在我实际上在看一些 python 库。现在从头开始写其中一个对我来说太费时间了。
PDF 用于表示,而不是用于处理内部数据。
你可能很幸运pdftotext或catdoc。
pdftotext
catdoc