1

根据您的经验,您认为以编程方式在黄页网站中搜索一个术语,然后将结果中的联系信息刮到 CSV 文件中有多难?

4

3 回答 3

2

你可以只使用YP 搜索 API吗?访问是免费的,只需一分钟即可设置开发者帐户。

于 2012-10-18T03:06:46.850 回答
1

使用 Perl 和一些像 WWW::Robot 这样的模块可能不会那么难。我没有尝试,但既然你知道 Python,Scrapy 可能会有所帮助。http://scrapy.org

记住不要在抓取时敲击网站,因为您的 IP 可能会被禁止。

于 2012-10-24T09:24:03.323 回答
0

使用正确的模块和库,它非常可行!不过,这取决于您的工具,Perl 或 Python,您将万事俱备。如果您尝试使用 C++ 执行此操作,您可能会遇到更多的痛苦。

如果您提供有关您的情况的更多信息(语言框架限制),我可以更具体。

此外,抓取还需要考虑法律问题,我不确定黄页关于机器人的政策。在继续之前阅读他们的 robots.txt。http://www.robotstxt.org/应该给你一些关于学习这些东西的开始信息。

既安全又合法的最好方法就是使用 API,http://developer.yp.com/

于 2012-10-18T02:47:50.543 回答