5

我最近使用 DARPA 网络流量数据包及其在 KDD99 中用于入侵检测评估的派生版本。

请原谅我在计算机网络领域的知识有限,我只能从 DARPA 数据包头中导出 9 个特征。而不是 KDD99 中使用的 41 个特性。

我打算继续我在 UNB ISCX 入侵检测评估数据集上的工作。但是,我想从 pcap 文件中导出 KDD99 中使用的 41 个功能,并将其保存为 CSV 格式。有没有一种快速/简单的方法来实现这一目标?

4

1 回答 1

9

小心这个数据集。

http://www.kdnuggets.com/news/2007/n18/4i.html

部分摘录:

人工数据是使用封闭网络、一些专有网络流量生成器和手动注入攻击生成的

在提出的问题中,最重要的似乎是没有执行任何验证来表明 DARPA 数据集实际上看起来像真实的网络流量。

2003 年,Mahoney 和 Chan 构建了一个简单的入侵检测系统,并针对 DARPA tcpdump 数据运行它。他们发现了许多违规行为,包括——由于数据的生成方式——所有恶意数据包的 TTL 为 126 或 253,而几乎所有良性数据包的 TTL 为 127 或 254。

DARPA 数据集(以及扩展的 KDD Cup '99 数据集)从根本上被破坏了,并且无法从使用它们进行的任何实验中得出任何结论

我们强烈建议 (1)所有研究人员停止使用 KDD Cup '99 数据集

至于使用的特征提取。IIRC 的大多数功能只是解析的IP/TCP/UDP 标头的属性。例如,端口号、IP 的最后一个八位字节和一些数据包标志。

因此,无论如何,这些发现不再反映现实的攻击。今天的 TCP/IP 堆栈比创建数据集时更加健壮,“死亡 ping”会立即锁定 Windows 主机。TCP/IP 堆栈的每个开发人员现在都应该意识到这种格式错误的数据包的风险,并对堆栈进行压力测试。

这样一来,这些功能就变得毫无意义了。网络攻击中不再使用错误设置的 SYN 标志等;这些要复杂得多;并且很可能不再攻击 TCP/IP 堆栈,而是攻击运行在下一层的服务。因此,我不会费心找出在 99 年代早期使用 90 年代早期有效的攻击的有缺陷的模拟中使用了哪些低级数据包标志......

于 2012-12-30T12:02:23.350 回答