是否有任何库/工具包可以帮助我从非结构化 PDF 文档(例如信件)中提取邮政地址信息?如果没有,您将如何处理这项任务?
我考虑过使用开源 PDF 库并使用正则表达式模式搜索信息,但我不确定是否可以使用这种简单的方法可靠地识别地址。不幸的是,我参加的数据挖掘课程没有涉及文本挖掘,而只是处理高度结构化的数据。也许从事自然语言处理的人知道有用的库或工具包?
是否有任何库/工具包可以帮助我从非结构化 PDF 文档(例如信件)中提取邮政地址信息?如果没有,您将如何处理这项任务?
我考虑过使用开源 PDF 库并使用正则表达式模式搜索信息,但我不确定是否可以使用这种简单的方法可靠地识别地址。不幸的是,我参加的数据挖掘课程没有涉及文本挖掘,而只是处理高度结构化的数据。也许从事自然语言处理的人知道有用的库或工具包?
我建议使用http://pdfbox.apache.org阅读 pdf(即转换为文本)和http://code.google.com/p/graph-expression/编写邮政地址语法。
使用 pdf2xml 或任何其他 PDF 库/工具包,并使用您喜欢的搜索引擎搜索“邮政地址提取”并将您的搜索限制为文件类型 pdf。