我正在使用 pdf-reader 阅读我的每月财务记录。我感兴趣的所有行都以描述开头,然后是日期 ##/##/#### 然后是两美元的金额 $#.## $#.## 。
像这样:
Gas Station 12/12/2012 $68.00 $485.00
有时,这些数字会有括号 $(4.50) 表示退货或负金额。我希望所有符合此“模式”的行都作为每行 4 项列表返回。因此,我将整条线与未确定数量的空格相匹配,偶尔还会在价格上加上括号。
require 'pdf-reader'
reader = PDF.Reader.new("month.pdf")
reader.pages.each do |page|
page.split("\n").each do |line|
if line # MATCHING REGEX HERE
#HANDLE 4 VALUES FROM REGEX
end
end
对于任何想了解我如何使用代码的人来说,这里是源代码https://github.com/danielpclark/INGdirect_pdf_processor。随意在您自己的项目中使用它来处理银行数据。