问题标签 [text-normalization]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

23 问题

0 投票

1 回答

84 浏览

postgresql - 规范化 postgresql 中的人名

规范化 postgresql 表中的文本字段的最简单方法是什么？

我正在尝试查找重复项。例如，我想将 O'Reilly 视为 oreilly 的副本。La Salle 也应该是 la'salle 的副本。

简而言之，我们想要

小写所有文本，
带口音
剥离标点符号，例如这些[.'-_]和
剥离空间

这一切都可以通过一两个简单的步骤完成吗？理想情况下使用内置的 postgresql 函数。

干杯

2020-08-07T01:58:45.743

0 投票

1 回答

96 浏览

python-3.x - 如何使用 Python 规范化印地语文本？

我正在一些包含印地语语音的音频文件上测试自动语音识别模型。

我使用 WER，字错误率作为指标。

我需要一些方法来规范参考和假设句子，以便 WER 更有意义。上面的例子实际上应该得到 WER = 0，但由于 शादी शुदा 之间的空间，WER 变为 2/4=0.5

我无法为印地语文本找到任何方法。

有人可以帮我吗？谢谢

python-3.x speech-recognition speech-to-text text-normalization

2021-05-04T11:31:30.973

0 投票

2 回答

160 浏览

python - 归一化向量，使总和等于 1，同时满足下限

给定下限 0.025，我想要一个由总和为 1 并满足该下限的权重组成的向量。从具有任意长度的向量开始，值范围从 0.025（下限）到 1。

例如，

然后，除以数字总和的归一化大致为您提供以下结果：

现在这不满足下限，关于如何让它工作的任何想法？

python optimization lower-bound text-normalization

2021-09-30T20:02:50.047

1 2 3 4 5 6 7 8 9 10

问题标签 [text-normalization]

postgresql - 规范化 postgresql 中的人名

python-3.x - 如何使用 Python 规范化印地语文本？

python - 归一化向量，使总和等于 1，同时满足下限

Reference