问题标签 [text-normalization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
84 浏览

postgresql - 规范化 postgresql 中的人名

规范化 postgresql 表中的文本字段的最简单方法是什么?

我正在尝试查找重复项。例如,我想将 O'Reilly 视为 oreilly 的副本。La Salle 也应该是 la'salle 的副本。

简而言之,我们想要

  1. 小写所有文本,
  2. 带口音
  3. 剥离标点符号,例如这些[.'-_]
  4. 剥离空间

这一切都可以通过一两个简单的步骤完成吗?理想情况下使用内置的 postgresql 函数。

干杯

0 投票
1 回答
96 浏览

python-3.x - 如何使用 Python 规范化印地语文本?

我正在一些包含印地语语音的音频文件上测试自动语音识别模型。

我使用 WER,字错误率作为指标。

我需要一些方法来规范参考和假设句子,以便 WER 更有意义。上面的例子实际上应该得到 WER = 0,但由于 शादी शुदा 之间的空间,WER 变为 2/4=0.5

我无法为印地语文本找到任何方法。

有人可以帮我吗?谢谢

0 投票
2 回答
160 浏览

python - 归一化向量,使总和等于 1,同时满足下限

给定下限 0.025,我想要一个由总和为 1 并满足该下限的权重组成的向量。从具有任意长度的向量开始,值范围从 0.025(下限)到 1。

例如,

然后,除以数字总和的归一化大致为您提供以下结果:

现在这不满足下限,关于如何让它工作的任何想法?