3

我从十六进制形式的二进制项目中提取 4 克,这意味着我每个项目最多可以有 65535 克不同的克数。

我想将每个项目与它的克数及其频率相关联,但我对如何存储所有内容感到困惑——这是我的第一次数据挖掘经验,我对最佳实践和常用工具一无所知。

我本来想在关系数据库中构建一个大表,其模式类似于(ITEM-NAME, GRAM1, GRAM2... GRAM65535)并在其中存储频率,但我可以看到这种方法由于列的数量而非常不切实际。

我知道那里必须有更好的解决方案,但我不知道在哪里看。

建议?

4

1 回答 1

1

存储 ngram 的最佳方式是prefixTree恕我直言。用于非常高效的库 lingpipe。

树的例子:

 1. gr1
   1. gr2 (item1)
   2. gr3 (item2,item3,item4)
 2. gr3 (item1, tem2)
 3. gr2
  1. g3 (item5,item6)
  2. g4 (item1)

其他选项是以倒排索引的格式存储:ngramm -> item

gr1 (item1, item2)
gr2 (item1, item3)
gr3 (item2, item3)
gr4 (item1, item2)

注意:第二个选项不存储对 ngram 至关重要的订单信息......

于 2011-10-13T09:28:50.560 回答