2

我正在使用 nutch2.2 和 hbase 0.94 和 gora 0.4,当我执行如下步骤时

1.nutch inject seed.txt
2.nutch generate -batchId 231
3.nutch fetch 231
4.nutch parse 231
5.nutch updatedb 231

我会得到特定页面的 html 内容说([ http://www.flipkart.com/mens-clothing/t-shirts?otracker=hp_nmenu_sub_men_0_T-Shirts])但是当我执行第 4 步时

nutch parse 231

并看到我webpage在 hbase 中创建的表有一个ol(outlink)列族,但它是空的

如果有人可以提供帮助,如果我得到所有的外链,那对我有好处。

提前致谢

4

0 回答 0