1

有很多分类广告以非 HTML 格式(纸张、文本、书面等)出现,倾向于出售房屋、汽车、出租、租赁、平面等。例如,分类广告说,公寓租金广告具有一些特征,例如:尺寸、面积、位置、价格、联系信息。。ETC

我的问题是如何提取广告所在的街道地址(文章/LOCALITY中提到的地址)或在前一篇文章中提到的?

有没有使用 NLTK & python 解决这个问题的方法?假设文章的来源是普通文本文件(.txt)。

4

1 回答 1

-1

如果源是 .txt 格式的正则表达式可能是最好的解决方案。我认为为所有任意类型的广告编写正则表达式并不容易(甚至不可能),但是您拥有的示例越多,您的搜索效果就越好。

于 2013-08-26T12:22:27.987 回答