1

我有来自 100 位不同作者的数千份小文档。使用quanteda包,我计算了作者与他们自己之间的余弦相似度。例如,作者 x 有 100 个文本,所以我想出了一个 100 x 100 的相似度矩阵。作者 y 有 50 个文本,所以我想出了一个 50 x 50 的相似度矩阵。

现在我想比较这两位作者。换句话说,哪个作者更抄袭自己?如果我取列或行的平均值,然后再次平均平均值向量,我会得到一个数字,因此我可以比较这两种平均值,但我不确定这些过程是否正确。我希望我说清楚了。

4

1 回答 1

1

我认为答案取决于您的兴趣数量到底是多少。如果这是对作者文档彼此相似程度的单一摘要,那么在作者内部对文档相似性的某种分布可能是您比较作者之间该数量的最佳方法。

例如,除了使用平均值总结此分布的策略之外,您还可以将作者文档中的余弦相似度保存并绘制为密度。为了捕捉方差,我还将描述这种相似性的标准偏差。

我会谨慎地将作者内部的余弦相似度称为“自我抄袭”。余弦相似度计算跨词袋向量表示的距离度量,不被视为识别“抄袭”的方​​法。此外,“抄袭”一词还有非常贬义的含义,即不诚实地将别人的想法表达为自己的想法。(我什至不相信“自我剽窃”这个词是有道理的,但是我有学术同事不同意。)

添加:

考虑 R 的textreuse,它是为您正在寻找的重用文本分析而设计的。

我不认为 Levenshtein 距离是你要找的。正如维基百科页面所指出的那样,小猫坐着之间的 LD是 3,但这在实质性方面绝对没有关于它们的语义关系或一个是另一个“重用”的例子。可以提出一个论点,即基于单词的 LD可能会显示重复使用,但这并不是大多数算法(例如http://turnitin.com)实现剽窃检测的方式。

于 2017-01-29T19:32:09.440 回答