1

我想为一件特定的事情建立一个搜索服务。这些数据可以通过免费的分类服务和许多其他网站免费获得。

是否有任何构建块,例如我可以定制的开源爬虫 - 而不是从头开始构建,我可以使用?

关于构建这样的产品有什么建议吗?不仅仅是技术上的,还有我可能需要考虑的任何隐私/法律问题。

例如,如果我从很多地方得到它们,我是否需要在结果的来源处“给予信任”并放置原始链接?

编辑:顺便说一句,我在前端使用带有 JS 的 GWT,还没有决定后端的语言。PHP或Python。想法?

4

2 回答 2

2

您可以使用 python 中的几个块。

  1. beautifulsoup [ http://www.crummy.com/software/BeautifulSoup/]用于解析 HTML。它也可以处理糟糕的代码,而且它的 API 非常简单……对我来说比任何类似 DOM 的工具都要好。我的朋友用它成功地抓取了他的旧 phpbb 论坛。它有很好的文档。
  2. mechanize [ http://wwwsearch.sourceforge.net/mechanize/]是一个模拟 web 浏览器的 http 客户端库。它处理cookies、填写表格等。也易于使用,但如果您了解 http 的工作原理,它会有所帮助。
  3. http://dev.scrapy.org/ - 这是一个相对较新的东西:一个基于扭曲的完整抓取框架。我玩的不多。

我使用前两个来满足我的需要;fe它需要20行代码来获得一个用于3阶段投票的自动测试工具,模拟等待用户输入数据等。

于 2009-06-18T18:32:34.397 回答
0

我用 Ruby 制作了一个屏幕刮板,花了大约五分钟。显然这个家伙把它降到了60秒!我不确定 Ruby 是否与您所寻找的一样可扩展或快速,但我从未见过更快的方法来进行概念验证或原型。

秘密是一个名为“ hpricot ”的库,正是为此目的而构建的。

我对 PHP 或 Python 或可用于这些开发系统/语言的内容一无所知。

祝你好运!

于 2009-06-18T18:16:01.740 回答