hbase - 在hbase中为我的种子文件中的每个不同的url创建不同的表？

Question

我正在使用与 Hbase 0.92.1 集成的 nutch 2.1。当我从网站获取数据时，所有数据都只写入 Hbase 的一个表中，这是我的问题。该表的名称是“网页”。

有没有办法为我的种子文件中的每个不同 URL 创建一个新表？

score 0 · Accepted Answer

我正在寻找类似的功能，但无法理解如何在没有黑客攻击的情况下使用 crawlId。

尚不清楚的是，inject 可以采用 -crawlId 参数（例如，nutch injection seed.txt -crawlId firstSeed）...这将在 HBase 中为整个 .txt 文件创建一个名为 firstSeed_webpage 的单独表。

对于上述用例，编写一个可以逐行读取 .txt 并给每个 URL 一个新的 crawlId 的 bash 脚本将是相当简单的。

！！！！！！（注意：对于与该爬网相关的所有命令，您应该包含 -crawlId 标志以表示您打算使用哪个表。）

score 0 · Accepted Answer

0

我找到了。在 nutch 2.0 中，表名的前缀是所谓的 crawlId :)。

于 2012-10-04T08:48:54.480 回答

2 回答 2