我正在尝试创建一个简单的网络抓取工具,它执行以下操作:
- 访问 Yellowpages.com
- 选择它尚未抓取的第一个类别
- 点击尚未抓取的第一个业务
- 抓取业务的标题、电话号码和描述
- 将它抓取的数据附加到 .csv 文件(或数据库)中
- 回到步骤 1
我认为 Node.js / jQuery 将是最容易实现这样的事情。任何人都可以为我指出一个教程或快速为我整理一些东西吗?
我正在尝试创建一个简单的网络抓取工具,它执行以下操作:
我认为 Node.js / jQuery 将是最容易实现这样的事情。任何人都可以为我指出一个教程或快速为我整理一些东西吗?
Just read an article on Hacker News yesterday about scraping with NodeJS and Chimera. The same author wrote an earlier article on Enhanced web scraping with NodeJS.
The Chimera one looks cool, because it uses a headless web browser (QtWebkit), so you get the pages to load anything they load with JS, which I need for a scraper I'm building at work.