我正在尝试确定我应该收集的样本和数据实例的理想数量。基本上,我必须创建一个网络流量数据集。
我不确定每个样本中的样本和实例数量如何影响训练数据。大量样品好不好?那么,我是否应该尝试收集尽可能多的实例?
我的想法是在不同的日子里收集两个不同的样本。然后对于每个样本中的每个程序/协议,我将收集大约 30 个实例。
我将使用 SVM 算法。
感谢您的帮助和任何澄清。而且,我也不确定我是否混淆了定义(样本与实例)。
我正在尝试确定我应该收集的样本和数据实例的理想数量。基本上,我必须创建一个网络流量数据集。
我不确定每个样本中的样本和实例数量如何影响训练数据。大量样品好不好?那么,我是否应该尝试收集尽可能多的实例?
我的想法是在不同的日子里收集两个不同的样本。然后对于每个样本中的每个程序/协议,我将收集大约 30 个实例。
我将使用 SVM 算法。
感谢您的帮助和任何澄清。而且,我也不确定我是否混淆了定义(样本与实例)。