我想从大约 1000-2000 个不同的餐厅网站上抓取联系信息。几乎所有网站的主页或某种“联系”页面上都有联系信息,但没有两个网站完全相同(即,没有可利用的通用模式)。我怎样才能可靠地从这些网站上抓取电子邮件/电话号码信息,而无需专门将 Python 脚本指向页面上的特定元素(即,脚本需要与结构无关,因为每个网站都有独特的 HTML 结构,它们没有'例如,他们在“联系人”中都有他们的联系信息div
)。
我知道没有办法编写一个 100% 有效的程序,我只想最大化我的命中率。
任何关于这方面的指导——从哪里开始,读什么——将不胜感激。
谢谢。