我正在尝试构建一个假新闻分类器,我在这个领域很新。我有一个名为“title_1_en”的列,其中包含假新闻的标题和另一个名为“title_2_en”的列。有3个目标标签;如果“title_2_en”列中的新闻标题同意、不同意或与第一列中的标题无关,则为“同意”、“不同意”和“不相关”。
在将句子的单词转换为向量后,我尝试计算两个标题之间的基本余弦相似度。这导致了余弦相似度得分,但这需要大量改进,因为根本没有考虑同义词和语义关系。
def L2(vector):
norm_value = np.linalg.norm(vector)
return norm_value
def Cosine(fr1, fr2):
cos = np.dot(fr1, fr2)/(L2(fr1)*L2(fr2))
return cos