1

嗨朋友们
我正在生成一个网络爬虫,我想知道一些关于它的事情,
1)我可以使用 Map reduce 从 NET 获取数据
2)我可以将获取的数据保存到 HBase 吗?
3)我可以用 PHP 编写一个应用程序来从 HBase 获取数据吗?如果可以,你能给我一个代码片段吗?如何使用 PHP 从 HBase 添加/查看/删除数据

4

3 回答 3

1

对于第 3 个问题,您可以通过 PHP 与 Hbase 进行交互,但您需要通过 Thrift 接口进行交互。有关更多信息,请参阅此博客文章。希望这可以帮助

于 2010-11-16T13:27:47.920 回答
1

对于您的问题,是的,这一切都可以完成。你如何处理它取决于你想要达到的目标。

1)您的主要控制需要对任务进行分区。您可能会维护某种要抓取的地址列表,可能会运行每次读取列表的顺序 mapreduce 任务,在可以进行抓取的映射器之间拆分列表,并直接写入 hbase 或其他中介。他们也可能会输出生成的 url 以供下一步抓取,而这些 url 又会在 reduce 阶段被过滤为唯一的,reduce 会输出接下来要抓取的内容列表。您需要维护一个最近爬取的东西的列表并将其过滤掉,但这并不特定于 MR/Hbase。

2)您可以使用表格输出格式将输出发送到 hbase。您也可以只使用 HTable 建立 HBase 连接并直接在映射器中写入。

3)正如TheDeveloper所说,是的,节俭。他的链接很好。

于 2010-11-18T06:57:29.033 回答
1

可以使用 Stargate 通过 REST 轻松完成。

于 2011-04-12T13:36:59.843 回答