我们目前正在开展一个 NLP 项目,需要一个旨在从 tripadvisor.com 中提取的语料库。我们期望输出有两种类型:评论和评论的评级。我的问题是:
有没有最适合这个目的的爬虫工具?它必须易于使用,首选python。Beautiful Soup 是我发现的,但我想在这里询问任何其他建议。
有没有专门为此目的的完整工具?我的意思是为tripadvisor.com 编写的程序?
任何其他有关从大型网站爬行的数据(评论/评级)的建议将不胜感激。
该语料库将用于大学研究的情感分析,我们需要尽快抓取它。