我可能误解了快速文本/深度学习如何用于分类,我想考虑最近邻来预测标签。我工作的目的是用同义词预测标签。
我用 fasttext 训练一个大数据集:
fasttext supervised -input data/spam_status.txt -output models/sem -lr 1.0 -wordNgrams 1 -epoch 25
spam_status.txt 使用正则表达式来标记包含单词“skype”的消息:
__label__skype i dont have skype __NUMBER__ sorry
__label__skype skype
__label__skype si ta un skype si
__label__skype i will give u my skype
__label__skype pv ici no skype
__label__skype skype
还有很多其他带有其他标签的消息,如果没有找到,则为“ok”。
“skype”的最近邻居是(带有fasttext nn models/sem.bin
):
- 电子邮件
- 振动器
- 电子邮件
- skp
这很好,fasttext 给了我很好的相似词。但如果我问一个预测:
fasttext predict-prob ./models/sem.bin -
donne moi ton skype
__label__skype 1.00001
donne moi ton viber
__label__ok 1.00001
donne moi ton emaill
__label__ok 1.00001
为什么这里不考虑NN?