0

如果这不是讨论这个问题的适当论坛,我真诚地道歉,但我不确定去哪里或什么是最好的选择。

基本上,我试图找到一个数据库友好的退伍军人医院列表。我能找到的最接近的东西是 www.va.gov/ofcadmin/docs/CATB.pdf,因为它包含我正在寻找的所有信息:

  • 地区
  • 地址
  • 单独列中的城市
  • 邮政编码在单独的列中
  • 状态
  • 设施编号(也称为 StationID)
  • VISN
  • 象征

我已经尝试将该 PDF 导出为 CSV,但开始工作是一场彻头彻尾的噩梦。所以,我很好奇是否有人对我如何完成这项任务有任何想法或见解。

4

2 回答 2

1

首先,这是一个 CSV 文件,其中包含 CATB.pdf 中的数据。第一行包含列标题,文件的其余部分包含内容。

http://tmp.alexloney.com/CATB.csv

现在,为了更详细的解释……我把你提供的 PDF 链接,使用 Adob​​e Acrobat 转换为 HTML 文档,然后我使用了很多正则表达式来解析文件并清理它。一旦文件被充分清理,我就可以编写一个程序来解析文件的其余部分,获取状态和区域,并将其全部输出为格式良好的 CSV。

希望对你有帮助!

于 2012-07-11T00:10:08.250 回答
0

我相信 PDFILL 有一个选项可以将 PDF 文件转换为 Excell。在 Excel 中,您应该可以毫无问题地转换为 CSV 文件。

于 2012-07-10T22:00:52.267 回答