我有 2 个文档 AB(或 2 个系列文档),并且想获得一个显示两个文档之间差异的新文档:AB
不同的是,有几个定义,一个是:单词列表/“概念”包含在A中但不包含在B中。
我正在考虑对 A 和 B 的每个句子使用 TF IDF,例如:
from sklearn.feature_extraction.text import TfidfVectorizer
d1 = [open(f1) for f1 in text_files]
tfidf = TfidfVectorizer().fit_transform(d1)
pairwise_similarity = tfidf * tfidf.T
我不确定这是否与生成新文档 C="AB" 相关,特别是对文档 C 中的“语义差异”感兴趣