目前,一些垃圾邮件浪潮,尤其是在体育赛事发生时,正在充斥着互联网。
由于我强烈怀疑垃圾邮件发送者的用户名不是计算机生成的,我认为尝试以某种方式以编程方式学习垃圾邮件发送者名称可能会很有趣。
用户名应介于 2 到 15 个字符之间,以字母开头并且仅包含字母、数字_
或-
.
一个示例名称列表将是
riazsports0171
maya34444
thelmaeatons
tigran777
newlive100
darbeshbaba
litondina10
nithuhasan
newlive100
bankuali
lldztwydni554
monomala505
nasiruddin1500
lldztwydni554
ariful3032
nazmulhasan
我只有相当基本的算法知识(来自大学)。我的问题是,我可以使用哪些机器学习算法和/或字符串指标来预测任意用户名是否可能是垃圾邮件发送者。我考虑过使用余弦字符串相似度,因为它相当简单。