这可能是关于可能的分类算法的新手问题,所以请多多包涵。我有一个包含名义属性和数字属性的数据集,可能看起来像下面的示例(不是实际数据集)。哪种算法最适合断言类并获得准确性(最好在 Python/Java 中)?
Classes: classA, classB, classC
attribute1: Recurrence <Yes, No>
attribute2: Subject <Math, Science, Geography>
attribute3: ProbabilityA <0.0 - 1.0>
atrribute4: ProbabilityB <0.0 - 1.0>
attribute5: ProbabilityC <0.0 - 1.0>
标称数据可以包含 [1,-1] 的数值,其中 1 表示存在,-1 表示不存在,也可以是一组字符串值,例如 ['YES', 'NO'] 或 ['Type1', '类型2','类型3']。数值用于表示属性的可能性。例如 [0-1],值越接近 1,越有可能评估为真。