1

我正在使用与 Hbase 0.92.1 集成的 nutch 2.1。当我从网站获取数据时,所有数据都只写入 Hbase 的一个表中,这是我的问题。该表的名称是“网页”。

有没有办法为我的种子文件中的每个不同 URL 创建一个新表?

4

2 回答 2

0

我正在寻找类似的功能,但无法理解如何在没有黑客攻击的情况下使用 crawlId。

尚不清楚的是,inject 可以采用 -crawlId 参数(例如,nutch injection seed.txt -crawlId firstSeed)...这将在 HBase 中为整个 .txt 文件创建一个名为 firstSeed_webpage 的单独表。

对于上述用例,编写一个可以逐行读取 .txt 并给每个 URL 一个新的 crawlId 的 bash 脚本将是相当简单的。

!!!!!!(注意:对于与该爬网相关的所有命令,您应该包含 -crawlId 标志以表示您打算使用哪个表。)

于 2013-02-27T23:02:10.073 回答
0

我找到了。在 nutch 2.0 中,表名的前缀是所谓的 crawlId :)。

于 2012-10-04T08:48:54.480 回答