我想制作一个程序,使用点系统对垃圾邮件中的邮件进行分类。
对于邮件中的一些单词,
我希望程序为我在程序中归类为“垃圾词”的每个单词给出不同的分数,我也为不同的单词分配不同的分数,这样每个单词都值得一些的点。
我的伪代码:
- 从文件中读取文本
- 寻找“垃圾词”
- 对于出现的每个单词,给出该单词的价值。
- 如果每个垃圾词的总分是 10,则打印“SPAM”,然后是文件中的单词列表并分类为垃圾词及其分数。
示例(文本文件):
Hello!
Do you have trouble sleeping?
Do you need to rest?
Then dont hesitate call us for the absolute solution- without charge!
因此,当程序运行并分析上面的文本时,它应该如下所示:
SPAM 14p
trouble 6p
charge 3p
solution 5p
所以我打算这样写:
class junk(object):
fil = open("filnamne.txt","r")
junkwords = {"trouble":"6p","solution":"3p","virus":"4p"}
words = junkwords
if words in fil:
print("SPAM")
else:
print("The file doesn't contain any junk")
所以我现在的问题是如何为文件中出现的列表中的每个单词打分?
以及如何对总分求和,以便if total_points are > 10
程序应该print "SPAM"
,然后
是在文件中找到的“垃圾词”列表以及每个单词的总分..