好吧,你的问题还是有点模糊。在大多数情况下,“爬虫”只会在网络上以文本格式查找数据,并对其进行处理以进行存储、解析等。“Facebook 截图”则完全不同。
如果你只是在寻找一个基于网络的爬虫,有几个库可以用来很容易地遍历网页的 DOM,并且可以抓取你正在寻找的内容。
如果你使用 Python,试试Beautiful Soup
如果你使用 Ruby,试试hpricot
如果您想在以后处理网页的全部内容,只需获取并存储“html”标签下的所有内容。
这是一个 BeautifulSoup 示例,用于获取页面上的所有链接:
require 'hpricot'
require 'open-uri'
doc = Hpricot(open("http://www.stackoverflow.com"))
(doc/"a").each do |link|
puts link.attributes['href']
end
编辑:如果您主要从同一站点获取内容(例如 Reddit 的评论部分、来自 StackOverflow 的问题、Digg 链接等),您可以对它们的格式进行硬编码,以便您的爬虫可以说:“好的,我'我在 Reddit 上,用 'thing' 类获取所有内容。你也可以给它一个默认的东西列表,例如类/id 为“main”、“content”、“center”等的 div .