java - 如何在 weka 中添加恶意特征进行分类作为数据集

Question

我正在做一个关于如何使用 weka 数据挖掘工具检测和分类恶意内容的项目。我开发了一种算法，但问题是我不知道如何以及在何处添加 javascript、html 或 URl 的恶意功能。

例如：如果有（///）三斜杠，则归类为恶意 URL。同样，我的算法将在其他特征上执行分类。

所以如果有人知道怎么做，请回复我。

提前致谢。

score 1 · Accepted Answer

这个问题更多的是关于特征提取或为您的项目查找域特征。通常 weka 使用现成的功能。因此，您的问题不是关于如何为您的项目查找和使用功能的 weka。

对于 html 和 javascript，我无能为力，但对于 URL 分类，以下文章可能会有所帮助。

Kan MY 和 Thi HON (2005)，“使用 URL 特征的快速网页分类”，第 14 届 ACM 信息和知识管理国际会议论文集。美国纽约州纽约市，第 325-326 页。ACM。

Ma J、Saul LK、Savage S 和 Voelker GM（2009 年），“超越黑名单：学习从可疑 URL 中检测恶意网站”，第 15 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集。美国纽约州纽约市，第 1245-1254 页。ACM。

score -1 · Accepted Answer

我们创建了变形恶意软件的 Windows API 调用序列。在我们的研究中，我们将每个软件产生的家族翻译成 8 个主要的恶意软件家族：木马、后门、下载器、蠕虫、间谍软件、广告软件、滴管、病毒。 https://github.com/ocatak/malware_api_class

2 回答 2