5

'我必须开发一个软件,它是为“未来商店”超市的业务分析师准备的,该软件对给定的超市销售交易的过渡数据进行关联规则挖掘,并通过准备 Combo 来准备折扣政策。该软件利用数据挖掘算法,即 Apriori 算法。关联规则将以用户友好的方式显示,以根据积极关联规则生成折扣政策。

从哪里可以获得超市数据集来检查我编码的 Apriori 算法?

4

2 回答 2

7

要获取市场数据集,您可以访问此处:fimi.ua.ac.be/data/ 并下载零售数据集。

它是来自比利时商店的匿名交易数据集。

它非常适合测试 Apriori 或其他频繁项集挖掘和关联规则挖掘算法。

于 2012-03-27T02:29:31.733 回答
0

您应该为每个单元测试设计一个小的、特定的数据集,而不是寻找真实世界的数据集。数据集应提供验证系统单个功能的最小必要前提条件。这将更容易检测错误,随着时间的推移维护测试,并向其他开发人员展示系统的功能和使用模式。

来自不同域的示例是对创建和验证网站登录的用户子系统的测试。

  • addsNewUser- 空数据集
  • throwsExceptionForDuplicateUsername- 单用户数据集
  • correctPasswordPasses- 相同的数据集
  • throwsExceptionForIncorrectUsername- 相同的数据集
  • throwsExceptionForIncorrectPassword- 相同的数据集
  • throwsExceptionWhenNewUsernameExists- 两个用户数据集

更新:如果您需要一个非常大的数据集来执行集成或性能测试,您可能需要编写一个程序来生成随机的购买集合。我怀疑任何现有的超市都愿意(或能够)放弃他们的真实数据集。

话虽如此,在多年前(HIPAA 之前)担任健康保险提供商的承包商时,我得到了一个样本数据集来使用。它包含真实的患者信息,包括 SSN 和机密病史。:(

于 2012-03-17T23:45:21.637 回答