我已经使用这里的材料和以前的论坛页面为一个程序编写了一些代码,该程序将自动计算整个文本中连续句子之间的语义相似度。这里是;
第一部分的代码是从第一个链接复制粘贴的,然后我在下面的 245 行后面放了这些东西。我在第 245 行之后删除了所有多余的部分。
with open ("File_Name", "r") as sentence_file:
while x and y:
x = sentence_file.readline()
y = sentence_file.readline()
similarity(x, y, true)
#boolean set to false or true
x = y
y = sentence_file.readline()
我的文本文件格式如下;
红色酒精饮料。新鲜的橙汁。一本英文词典。黄色壁纸。
最后我想显示所有具有相似性的连续句子对,如下所示;
["Red alcoholic drink.", "Fresh orange juice.", 0.611],
["Fresh orange juice.", "An English dictionary.", 0.0]
["An English dictionary.", "The Yellow Wallpaper.", 0.5]
if norm(vec_1) > 0 and if norm(vec_2) > 0:
return np.dot(vec_1, vec_2.T) / (np.linalg.norm(vec_1)* np.linalg.norm(vec_2))
elif norm(vec_1) < 0 and if norm(vec_2) < 0:
???Move On???