问题标签 [text-normalization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
postgresql - 规范化 postgresql 中的人名
规范化 postgresql 表中的文本字段的最简单方法是什么?
我正在尝试查找重复项。例如,我想将 O'Reilly 视为 oreilly 的副本。La Salle 也应该是 la'salle 的副本。
简而言之,我们想要
- 小写所有文本,
- 带口音
- 剥离标点符号,例如这些
[.'-_]
和 - 剥离空间
这一切都可以通过一两个简单的步骤完成吗?理想情况下使用内置的 postgresql 函数。
干杯
python-3.x - 如何使用 Python 规范化印地语文本?
我正在一些包含印地语语音的音频文件上测试自动语音识别模型。
我使用 WER,字错误率作为指标。
我需要一些方法来规范参考和假设句子,以便 WER 更有意义。上面的例子实际上应该得到 WER = 0,但由于 शादी शुदा 之间的空间,WER 变为 2/4=0.5
我无法为印地语文本找到任何方法。
有人可以帮我吗?谢谢
python - 归一化向量,使总和等于 1,同时满足下限
给定下限 0.025,我想要一个由总和为 1 并满足该下限的权重组成的向量。从具有任意长度的向量开始,值范围从 0.025(下限)到 1。
例如,
然后,除以数字总和的归一化大致为您提供以下结果:
现在这不满足下限,关于如何让它工作的任何想法?