我正在使用与 Hbase 0.92.1 集成的 nutch 2.1。当我从网站获取数据时,所有数据都只写入 Hbase 的一个表中,这是我的问题。该表的名称是“网页”。
有没有办法为我的种子文件中的每个不同 URL 创建一个新表?
我正在寻找类似的功能,但无法理解如何在没有黑客攻击的情况下使用 crawlId。
尚不清楚的是,inject 可以采用 -crawlId 参数(例如,nutch injection seed.txt -crawlId firstSeed)...这将在 HBase 中为整个 .txt 文件创建一个名为 firstSeed_webpage 的单独表。
对于上述用例,编写一个可以逐行读取 .txt 并给每个 URL 一个新的 crawlId 的 bash 脚本将是相当简单的。
!!!!!!(注意:对于与该爬网相关的所有命令,您应该包含 -crawlId 标志以表示您打算使用哪个表。)
我找到了。在 nutch 2.0 中,表名的前缀是所谓的 crawlId :)。