hadoop - 用于事务生成的 IBM Quest Data Generator 参数

Question

我需要为关联规则挖掘生成合成数据集，以将我的算法与现有算法的性能进行比较。我下载了 IBM Quest Data generator，但不知道如何使用论文中使用的相同参数生成数据集。例如，如何生成 T40I10D100K.dat T40I10D1000K.dat、T10I4D100K.dat T25I10D10k.data 数据集？T、I、D是什么意思，使用发电机时如何设置这些参数？

帮助输出以下内容。

hduser@master:~$ ./gen lit -help 
Command Line Options:
-ntrans number_of_transactions (in 1000's) (default: 1000)
  -tlen avg_items_per_transaction (default: 10)
  -nitems number_of_different_items (in '000s) (default: 100000)
  -npats number_of_patterns (default: 10000)
  -patlen avg_length_of_maximal_pattern (default: 4)
  -corr correlation_between_patterns (default: 0.25)
  -conf avg_confidence_in_a_rule (default: 0.75)
  -fname <filename> (write to filename.data and filename.pat)
  -ascii (default: False)

  -randseed # (reset seed used generate to x-acts; must be negative)
  -version (to print out version info)

score 1 · Accepted Answer

您可以在此处获取 IBM 生成器：

http://forum.ai-directory.com/read.php?5,33

以下是这些字母的解释：

D：数据集中的序列数 C：每个序列的平均项目集数 T：每个项目集的平均项目数 S：潜在频繁序列中的平均项目集数。I：潜在频繁序列中项目集的平均大小 N：数据集中不同项目的数量

hadoop - 用于事务生成的 IBM Quest Data Generator 参数

1 回答 1

Related

Reference