我正在做一个关于如何使用 weka 数据挖掘工具检测和分类恶意内容的项目。我开发了一种算法,但问题是我不知道如何以及在何处添加 javascript、html 或 URl 的恶意功能。
例如:如果有(///)三斜杠,则归类为恶意 URL。同样,我的算法将在其他特征上执行分类。
所以如果有人知道怎么做,请回复我。
提前致谢。
我正在做一个关于如何使用 weka 数据挖掘工具检测和分类恶意内容的项目。我开发了一种算法,但问题是我不知道如何以及在何处添加 javascript、html 或 URl 的恶意功能。
例如:如果有(///)三斜杠,则归类为恶意 URL。同样,我的算法将在其他特征上执行分类。
所以如果有人知道怎么做,请回复我。
提前致谢。
这个问题更多的是关于特征提取或为您的项目查找域特征。通常 weka 使用现成的功能。因此,您的问题不是关于如何为您的项目查找和使用功能的 weka。
对于 html 和 javascript,我无能为力,但对于 URL 分类,以下文章可能会有所帮助。
Kan MY 和 Thi HON (2005),“使用 URL 特征的快速网页分类”,第 14 届 ACM 信息和知识管理国际会议论文集。美国纽约州纽约市,第 325-326 页。ACM。
Ma J、Saul LK、Savage S 和 Voelker GM(2009 年),“超越黑名单:学习从可疑 URL 中检测恶意网站”,第 15 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集。美国纽约州纽约市,第 1245-1254 页。ACM。
我们创建了变形恶意软件的 Windows API 调用序列。在我们的研究中,我们将每个软件产生的家族翻译成 8 个主要的恶意软件家族:木马、后门、下载器、蠕虫、间谍软件、广告软件、滴管、病毒。 https://github.com/ocatak/malware_api_class