如何在人类语言文本(中文)上进行逐字比较?
我在 git 存储库中有一些中文纯文本。文本已被编辑,我想看看添加/删除了哪些单词。文件中的一行代表一整段文本,所以一个简单的 git diff 是不够的:我们知道在一定数量的段落中发生了一些变化,但我们看不到其中哪些句子/单词发生了变化。
更糟糕的是,正如我所说,文本是中文的。与英语和其他印欧语系不同,中文不使用空格作为单词分隔符。整个段落与中文标点符号组成一个统一的块,不包含任何空格。因此, git diff --word-diff 根本没有帮助。
有没有办法在这样的中文文本的两个版本之间产生人类可读的差异?每个字符是否有等效的 --word-diff ?