这是一个纯粹的编程问题。我有一个单词数组。单词后面有不同长度的停顿(大部分为零)。每个单词也有一个确定性分数。我想从前瞻窗口中选择最佳的单词跨度。
- 总体确定性越低越好(或者说确定性的第 33 个百分位数越低越好)。
- 边缘上的停顿时间越长越好(有一个硬的最小值)。
- 会有一个最佳长度(如 5 秒)。离它越近越好。最小和最大长度会有硬性限制。
注意,这是在 JavaScript 中,所以我不能使用支持向量机或类似的东西。:-) 对于性能想法,它可能会在 2 分钟长度(250 个字左右)的窗口上每分钟计算一次。
对于感兴趣的人来说,第二个好处是:这是选择自动语音识别生成的单词范围进行手动转录(主动学习)。
你会如何处理这个问题?