我正在一些包含印地语语音的音频文件上测试自动语音识别模型。
我使用 WER,字错误率作为指标。
reference (ground truth) - वह शादीशुदा नहीं है
hypothesis(model output) - वह शादी शुदा नहीं है
我需要一些方法来规范参考和假设句子,以便 WER 更有意义。上面的例子实际上应该得到 WER = 0,但由于 शादी शुदा 之间的空间,WER 变为 2/4=0.5
我无法为印地语文本找到任何方法。
有人可以帮我吗?谢谢