python-3.x - 如何使用 Python 规范化印地语文本？

Question

我正在一些包含印地语语音的音频文件上测试自动语音识别模型。

我使用 WER，字错误率作为指标。

reference (ground truth) - वह शादीशुदा नहीं है
hypothesis(model output) - वह शादी शुदा नहीं है

我需要一些方法来规范参考和假设句子，以便 WER 更有意义。上面的例子实际上应该得到 WER = 0，但由于 शादी शुदा 之间的空间，WER 变为 2/4=0.5

我无法为印地语文本找到任何方法。

有人可以帮我吗？谢谢

score 2 · Accepted Answer

我在 Google 上搜索了“使用 Python 对印地语文本进行规范化”，我得到了一个为印地语文本开发的 NLP 库。您可以查看以下链接：

也许它会帮助你。

1 回答 1