1

我正在尝试使用先验算法推断客户帐户上发生的错误。所以我有一个像这样的错误表:

error_id error_code cust_id  
1 M015 100  
2 M020 101  
3 M016 100  
4 M019 100  
5 M015 102

...

我想确定给定 M015 会出现什么错误。
(例如 M015 -> ??)

问题是错误表包含数十万行项目,并且有数百个可能的错误代码。那么我是否以非常低的信心运行我的算法以获取尽可能多的规则?或者我是否将错误数据库缩小到仅包含包含我感兴趣的错误的“事务”?

(例如,在这个例子中,如果我正在寻找规则 M015,我是否应该将事务表限制为只有 cust_id 100 和 102 的行项目?)

4

1 回答 1

0

对于最小置信度和支持度阈值,最好从较高的值开始,如果您没有获得足够的结果,则将其降低。

但我认为你应该保持高信心,否则结果将无用。例如,您可能希望有至少 50% 的置信度。

是的,为了优化,您可以修改算法以仅搜索包含您感兴趣的项目的规则。这将允许算法不会生成大量规则。

但不要忘记,关联不是因果关系。如果您想根据时间进行一些预测,您可以使用“顺序规则挖掘算法”或顺序模式挖掘算法”,而不是关联规则挖掘算法。

于 2011-10-23T12:25:15.897 回答