-1

我是 ML 新手。我有一个 diff 报告,其中的注释表明好 diff 和坏 diff。例子 -

旧字符串新字符串差异注释

abc 好

pqr xyz 坏

lmn wxy 好

……

给定这个训练集,假设它们具有相似的内容,是否可以使用分类器来预测未来差异报告的注释。如果是这样,哪个分类器最适合这项任务?

4

2 回答 2

1

除非您尝试并调整其参数,否则无法知道哪个是“最佳分类器”。如果您是该领域的初学者,Weka可以帮助您入门。

于 2012-11-15T12:44:15.210 回答
0

分类器不是可以吸收任何东西并从中理解的魔杖。您需要将数据分解为“特征”或“信号”,然后分类器可以检测出一种模式,以便将来自动标记数据。鉴于您给我们的示例训练集(由 3 条短线组成),任何人都无法猜测数据中存在哪些重复出现的共性,分类器可以利用这些共性来完成其工作。
如果你能想到计算机可以研究的一些潜在信号,然后用它来做出明智的猜测,那么就有可能自动识别一条线可以得到什么注释。分类器的最佳选择主要取决于您选择的信号类型。如果每个字符串中都有重复出现的单词,那么朴素贝叶斯可能会起作用,如果您提出的信号形成数字向量,那么逻辑回归或 svm 将是不错的选择。

于 2012-11-16T15:10:29.300 回答