-1

我为一家食品公司开始了我的硕士论文。他们从一些成分开始,混合它们,加热它们,等等,直到他们最终得到糖果。但有一个问题。对于生产同样的糖果,PLC控制的机器并不总是运行平稳,并且不会给出相同的结果。他们认为是水果作为一种成分,并不总是 100% 相同(粘度等)。他们在用于生产之前测量成分的特征。它们还测量所有工艺参数(压力、温度、白利糖度等)。这些都被存储了。现在我的论文是使用机器学习模型检查这些数据以获得更多信息。现在我遇到了一些问题。第一个问题是我实际上没有分类。没有“好糖果”和“坏糖果”之类的东西。第二个问题是我并没有真正的输出参数。我有糖度值,但仅此而已。最后一个问题是:成分是我模型的输入特征,但过程特征,这些输入也是吗?还是我应该把它留在后面?

非常感谢你的帮助!

4

1 回答 1

0

第一个问题是我实际上没有分类。没有“好糖果”和“坏糖果”之类的东西。

公司如何决定什么是足够的?您需要确定他们用于将糖果标记为“坏”或“好”的标准。如果您没有任何标签,则可能需要寻找无监督学习技术,例如聚类分析或因子分析。

第二个问题是我并没有真正的输出参数。我有糖度值,但仅此而已。

根据您的任务,您将不得不考虑您的目标值是什么。对于分类,它将是糖果的标签。因此,“坏”或“好”糖果。对于回归问题,您需要一些连续的东西(例如,如果这与您的目标相关,则白利糖度值)。对于无监督学习,您不需要输出变量。

最后一个问题是:成分是我模型的输入特征,但过程特征,这些输入也是吗?还是我应该把它留在后面?

您必须查看您拥有的所有变量,并决定糖果是“好”还是“坏”时哪些变量包含有价值的信息。那是您需要收集的特定领域知识。你可以问问公司的人。他们应该能够告诉你什么是重要的或不重要的。您还可以查看所有参数的统计信息。应确定与糖果质量相关的参数。变化不大的参数(例如温度总是恒定的)可以忽略不计。

于 2019-02-22T14:46:38.083 回答