0

我想为回归目的构建一个简单的 NN;我输入数据的维度为 (100000,3):意味着我有 1mio 粒子及其对应的 x、y、z 坐标。在这些粒子中,我想预测这些粒子对应于中心数据读取位置的中心 (1000,3)。

我的问题是:由于输入数组应该具有与目标数组相同数量的样本,我该如何解决这个问题?

实际上我的映射是从 (100000,3) -> (1000,3) 因为平均大约 100 个粒子属于一个中心。

为了训练模型,我将使用许多具有正确中心的数据集作为输出;之后,我想从一组新的粒子坐标中预测相应的中心。

4

2 回答 2

1

这是关于未知标签的问题的答案。

在使用任何监督算法之前,您必须了解标签。否则,您将无法训练模型。您需要考虑使用其中一种无监督技术来解决此问题,例如k均值算法、高斯混合模型或分类和回归树等。

例如,我给出的建议之一是尝试使用固定数量k的 k-means ,在您的情况下为 1000,运行该算法几次,看看质心是否接近输出中的元素。然后,您可以根据输出与最近质心之一的接近程度对输出进行分类。然后,属于各个质心的所有输入元素都将被分类。


编辑。

在重新考虑您的示例后,我认为k -NN 可能对您的问题更有帮助。在k -NN 中,输出被视为邻居。输入中的每个点都分配给最近的邻居。最后,您已经有了输出,但您不知道如何映射输入和输出中的所有元素。我刚刚意识到你的问题是“映射”。k -NN很有可能解决这个问题,这意味着它将为输入中与输出中的元素相对应的所有元素创建标签。一旦完成,就可以训练神经网络模型。

于 2019-11-30T14:13:57.953 回答
1

您所要做的就是匹配尺寸。假设您知道哪个粒子属于哪个中心,那应该不会太难。

所以在你的情况下,你应该有一个 (1000000,3)(atoms) 的矩阵和一个 (1000000,)(centers) 的向量作为它们的标签。这意味着向量中的每个条目对应于原子矩阵中的一行。

于 2019-11-29T14:18:44.967 回答