我需要编写一个脚本,可能是用 Ruby 编写的,它将获取一个文本块,并将该文本的许多转录记录与原始文本进行比较,以检查准确性。如果这完全令人困惑,我会尝试用另一种方式解释......
我有几个不同的人阅读一个只有几句话的脚本的录音。这些录音都被其他人多次转录回文本。我需要获取所有的转录(数百个)并将它们与原始脚本进行比较以确保准确性。
我什至无法概念化伪代码,并且想知道是否有人可以指出我正确的方向。我应该考虑一个既定的算法吗?有人向我建议了Levenshtein 距离,但考虑到标点符号选择、空格等方面的差异,这似乎不能很好地处理较长的字符串——即使每隔一个单词丢失第一个单词也会破坏整个算法很完美。我对任何事情都持开放态度——谢谢!
编辑:
感谢您的提示,心理医生。然而,我最大的担忧之一是这样的情况:
原文:
I would've taken that course if I'd known it was available!
转录
I would have taken that course if I'd known it was available!
即使对标记进行逐字比较,这种转录也会被标记为非常错误,即使它几乎是完美的,而且这几乎不是边缘情况!“would've”和“would have”的发音通常极为相似,尤其是在世界的这个地区。有没有办法让你建议的方法足够强大来处理这个问题?我曾考虑过向前和向后进行逐字比较并建立一种综合得分,但这会因这样的转录而崩溃:
I would have taken that course if I had known it was available!
有任何想法吗?