我有两个字幕文件。我需要一个函数来判断它们是代表相同的文本还是相似的文本
有时仅在一个文件中会出现诸如“风在吹……音乐正在播放”之类的评论。但是 80% 的内容将是相同的。该函数必须返回 TRUE(文件代表相同的文本)。有时会出现像 1 这样的拼写错误,而不是 l (one - L),如下所示: She 1eft the bag。当然,这意味着函数必须返回 TRUE。
我的评论:
该函数应该返回文本相似度的百分比 - 同意
“所有人都很开心”和“所有人都不开心”——在这里这会被认为是拼写错误,所以会被认为是相同的文本。确切地说,函数返回的百分比会更低,但足以说明短语相似
请考虑是否要将 Levenshtein 应用于整个文件或只是一个搜索字符串 - 不确定 Levenshtein,但该算法必须应用于整个文件。不过,这将是一个很长的字符串。