search - 搜索引擎是否有任何构建块可以抓取其他网站？

Question

我想为一件特定的事情建立一个搜索服务。这些数据可以通过免费的分类服务和许多其他网站免费获得。

是否有任何构建块，例如我可以定制的开源爬虫 - 而不是从头开始构建，我可以使用？

关于构建这样的产品有什么建议吗？不仅仅是技术上的，还有我可能需要考虑的任何隐私/法律问题。

例如，如果我从很多地方得到它们，我是否需要在结果的来源处“给予信任”并放置原始链接？

编辑：顺便说一句，我在前端使用带有 JS 的 GWT，还没有决定后端的语言。PHP或Python。想法？

score 2 · Accepted Answer

您可以使用 python 中的几个块。

beautifulsoup [ http://www.crummy.com/software/BeautifulSoup/]用于解析 HTML。它也可以处理糟糕的代码，而且它的 API 非常简单……对我来说比任何类似 DOM 的工具都要好。我的朋友用它成功地抓取了他的旧 phpbb 论坛。它有很好的文档。
mechanize [ http://wwwsearch.sourceforge.net/mechanize/]是一个模拟 web 浏览器的 http 客户端库。它处理cookies、填写表格等。也易于使用，但如果您了解 http 的工作原理，它会有所帮助。
http://dev.scrapy.org/ - 这是一个相对较新的东西：一个基于扭曲的完整抓取框架。我玩的不多。

我使用前两个来满足我的需要；fe它需要20行代码来获得一个用于3阶段投票的自动测试工具，模拟等待用户输入数据等。

score 0 · Accepted Answer

我用 Ruby 制作了一个屏幕刮板，花了大约五分钟。显然这个家伙把它降到了60秒！我不确定 Ruby 是否与您所寻找的一样可扩展或快速，但我从未见过更快的方法来进行概念验证或原型。

秘密是一个名为“ hpricot ”的库，正是为此目的而构建的。

我对 PHP 或 Python 或可用于这些开发系统/语言的内容一无所知。

祝你好运！

2 回答 2