3

我们目前正在开展一个 NLP 项目,需要一个旨在从 tripadvisor.com 中提取的语料库。我们期望输出有两种类型:评论和评论的评级。我的问题是:

  • 有没有最适合这个目的的爬虫工具?它必须易于使用,首选python。Beautiful Soup 是我发现的,但我想在这里询问任何其他建议。

  • 有没有专门为此目的的完整工具?我的意思是为tripadvisor.com 编写的程序?

  • 任何其他有关从大型网站爬行的数据(评论/评级)的建议将不胜感激。

该语料库将用于大学研究的情感分析,我们需要尽快抓取它。

4

2 回答 2

0

按相应顺序回答您的问题:

  • 您需要的是一个 Web Scraping 工具。爬虫使浏览页面的过程自动化,而爬虫将 HTML 转换为结构化数据。在不同的平台上有许多可用的工具。不知道美丽的汤。您是在设计 Scraper 还是会购买它?

  • 您可以根据您的定制需求获得现成的语料库或制作 Web Scraper。您可以使用ScraperWiki手动请求您的数据或编写 Scraper 。我不知道您的数据结构,但可以使用 Google 电子表格抓取一些数据。你可以在这里看到。只需查看抓取的数据类型,如果它与您的数据类似,那么您就可以使用它。

  • 无法抓取某些站点或其特定目录。您可以检查他们robots.txt以了解相同的情况。在从网站抓取数据之前,还要阅读网站的政策。

您还没有问过,但这里有一些免费的情绪分析工具。

于 2013-01-22T12:54:50.433 回答
0

对于python,你可以使用scrapy,这是一个熟练的爬虫框架,http: //scrapy.org/

此外,我邀请您分享您收集的数据。如果tripadvisor 数据已经准备好,您就不需要爬网了。或者至少,您可以共享爬虫脚本。

于 2013-01-19T21:17:04.997 回答