machine-learning - 差异报告的分类器

Question

我是 ML 新手。我有一个 diff 报告，其中的注释表明好 diff 和坏 diff。例子 -

旧字符串新字符串差异注释

abc 好

pqr xyz 坏

lmn wxy 好

……

给定这个训练集，假设它们具有相似的内容，是否可以使用分类器来预测未来差异报告的注释。如果是这样，哪个分类器最适合这项任务？

score 1 · Accepted Answer

除非您尝试并调整其参数，否则无法知道哪个是“最佳分类器”。如果您是该领域的初学者，Weka可以帮助您入门。

score 0 · Accepted Answer

分类器不是可以吸收任何东西并从中理解的魔杖。您需要将数据分解为“特征”或“信号”，然后分类器可以检测出一种模式，以便将来自动标记数据。鉴于您给我们的示例训练集（由 3 条短线组成），任何人都无法猜测数据中存在哪些重复出现的共性，分类器可以利用这些共性来完成其工作。
如果你能想到计算机可以研究的一些潜在信号，然后用它来做出明智的猜测，那么就有可能自动识别一条线可以得到什么注释。分类器的最佳选择主要取决于您选择的信号类型。如果每个字符串中都有重复出现的单词，那么朴素贝叶斯可能会起作用，如果您提出的信号形成数字向量，那么逻辑回归或 svm 将是不错的选择。

machine-learning - 差异报告的分类器

2 回答 2

Related

Reference