数据由几条记录组成。一条记录如下:[位向量,数值向量,几个数值]。位向量对于每条记录具有不同的长度,对于数字向量也是如此。每条记录的数值数量是所有记录的常数。
输出是 2 个数字。它们的值(均在 [0.0, 1.0] 范围内)用于搜索算法中的评估/适应度函数逼近。
所以,我的问题是:如何为神经网络表示/标准化这些数据?特别是,是否有一种(棘手的)方法可以紧凑地表示位向量?它的长度可以达到几千。
数据由几条记录组成。一条记录如下:[位向量,数值向量,几个数值]。位向量对于每条记录具有不同的长度,对于数字向量也是如此。每条记录的数值数量是所有记录的常数。
输出是 2 个数字。它们的值(均在 [0.0, 1.0] 范围内)用于搜索算法中的评估/适应度函数逼近。
所以,我的问题是:如何为神经网络表示/标准化这些数据?特别是,是否有一种(棘手的)方法可以紧凑地表示位向量?它的长度可以达到几千。
除了几个经典问题之外,没有单一的正确方法可以将复杂数据输入 NN。这是一种艺术,事实上深度学习的最新进展在表示复杂数据的方式方面取得了很大进展。
因此,在不了解您的数据性质的情况下,很难给出任何具体的建议。为什么你有可变长度的向量?它们代表某种序列吗?位向量中编码了什么?
从纯技术的角度来看,可变长度数据意味着您需要用零填充到恒定长度(最简单但通常不是很好)或特殊的 NN 架构(如卷积或循环网络),并且选择将取决于数据集的性质。如果您的位向量表示一组某种二进制特征,那么您每个位需要一个神经元,或者您可以尝试使用自动编码器训练紧凑的实值嵌入。
要获得更有用的答案,请描述您的问题的性质并将您的问题发布到 stats.stackexchange.com