2

我正在尝试确定我应该收集的样本和数据实例的理想数量。基本上,我必须创建一个网络流量数据集。

我不确定每个样本中的样本和实例数量如何影响训练数据。大量样品好不好?那么,我是否应该尝试收集尽可能多的实例?

我的想法是在不同的日子里收集两个不同的样本。然后对于每个样本中的每个程序/协议,我将收集大约 30 个实例。

我将使用 SVM 算法。

感谢您的帮助和任何澄清。而且,我也不确定我是否混淆了定义(样本与实例)。

4

1 回答 1

1

我不完全确定您在实例和样本之间所做的区别(通常它们的含义相同),但总的来说(只要您的数据收集过程是合理的)数据越多越好。对大多数学习者的表现做出一些概率保证所需的数据实例数量有一些结果,但这些通常不实用,并且会超出您需要的数据量。因此,总体而言,在收集成本和运行学习算法的计算成本方面收集尽可能多的数据。

于 2012-07-14T19:39:05.877 回答