我正在使用 nutch2.2 和 hbase 0.94 和 gora 0.4,当我执行如下步骤时
1.nutch inject seed.txt
2.nutch generate -batchId 231
3.nutch fetch 231
4.nutch parse 231
5.nutch updatedb 231
我会得到特定页面的 html 内容说([ http://www.flipkart.com/mens-clothing/t-shirts?otracker=hp_nmenu_sub_men_0_T-Shirts])但是当我执行第 4 步时
nutch parse 231
并看到我webpage
在 hbase 中创建的表有一个ol(outlink)
列族,但它是空的
如果有人可以提供帮助,如果我得到所有的外链,那对我有好处。
提前致谢