0

最近,我一直在阅读一些关于互联网流量分类的论文,特别是使用机器学习算法。

我打算研究它,我想为我这学期的机器学习课提出一个关于互联网流量分类的项目想法。

我的第一步是在由 3-4 个客户端组成的本地网络上收集数据。我正在使用 wireshark 工具来嗅探数据包。

我的下一步是从wireshark 数据包中提取TCP 流。在这一步,我尝试在 Linux 上使用 tcpflow。tcpflow 为每个流创建不同的文件。在这里,文件的内容大多是二进制的,我不知道如何从这些文件中提取鉴别器。

有人可以给我一个想法或分享他/她关于如何解释 tcpflow 文件的经验吗?我会很高兴听到你的建议。

提前致谢。

4

1 回答 1

2

以下是一些可以从 TCP 流量中提取的特征的想法:

  • 端口/协议(大多数协议通常在服务器上使用相同的端口)
  • 数据包频率和大小(短命令数据包或长数据流)
  • TCP连接阶段
  • 流错误/重传
  • 流量控制消息和速率限制

为了更好地提取特征,您可能必须查看某些协议(HTTP、DNS 等)本身的详细信息,而不仅仅是 TCP 流。我认为wireshark已经这样做了,为什么不重用他们的库功能呢?

您可能还想查看入侵检测系统(IDS) 的设计,因为它们几乎对流量做同样的事情,并试图将其分类为良性或恶意。

于 2013-03-03T00:05:31.447 回答