nlp - 从 TripAdvisor 抓取数据的任何建议

Question

我们目前正在开展一个 NLP 项目，需要一个旨在从 tripadvisor.com 中提取的语料库。我们期望输出有两种类型：评论和评论的评级。我的问题是：

该语料库将用于大学研究的情感分析，我们需要尽快抓取它。

score 0 · Accepted Answer

按相应顺序回答您的问题：

您需要的是一个 Web Scraping 工具。爬虫使浏览页面的过程自动化，而爬虫将 HTML 转换为结构化数据。在不同的平台上有许多可用的工具。不知道美丽的汤。您是在设计 Scraper 还是会购买它？
您可以根据您的定制需求获得现成的语料库或制作 Web Scraper。您可以使用ScraperWiki手动请求您的数据或编写 Scraper 。我不知道您的数据结构，但可以使用 Google 电子表格抓取一些数据。你可以在这里看到。只需查看抓取的数据类型，如果它与您的数据类似，那么您就可以使用它。
无法抓取某些站点或其特定目录。您可以检查他们robots.txt以了解相同的情况。在从网站抓取数据之前，还要阅读网站的政策。

您还没有问过，但这里有一些免费的情绪分析工具。

score 0 · Accepted Answer

对于python，你可以使用scrapy，这是一个熟练的爬虫框架，http: //scrapy.org/

此外，我邀请您分享您收集的数据。如果tripadvisor 数据已经准备好，您就不需要爬网了。或者至少，您可以共享爬虫脚本。

2 回答 2