我有文本的修订历史,我需要确定哪些部分是由哪些用户编写的。有我可以使用的 php 代码吗?还是一个好的算法?
我想出的还不够好:将文本拆分为句子,并称第一个写特定句子的用户为作者。这非常有效,但对我的目的来说不够精确。另外,我一直在考虑使用差异算法,但我不确定如何进行。以修订版 3 为例:与修订版 2 的差异告诉用户 3 编写了哪些部分,但如何确定剩余文本的哪些部分来自修订版 1?
我有文本的修订历史,我需要确定哪些部分是由哪些用户编写的。有我可以使用的 php 代码吗?还是一个好的算法?
我想出的还不够好:将文本拆分为句子,并称第一个写特定句子的用户为作者。这非常有效,但对我的目的来说不够精确。另外,我一直在考虑使用差异算法,但我不确定如何进行。以修订版 3 为例:与修订版 2 的差异告诉用户 3 编写了哪些部分,但如何确定剩余文本的哪些部分来自修订版 1?