usability - 可用性：语音识别与键盘

Question

我们看到越来越多的语音识别被实现，并且需要能够进行良好语音识别的库。与键盘或小键盘相比，它背后的基本原理（在可用性方面）是什么？你有什么理由投资这个开发项目？

例如，让我们以呼叫中心为例。几年前，几乎每个呼叫中心都使用提示输入菜单键的 IVR。现在，我们看到越来越多的菜单提示输入关键字和/或按下键盘：“请说出发票或按 1 查看您的发票”。或者我们在公司的电话簿中看到同样的内容：“请说出您要联系的人的姓名”……“弗兰克·洛伊德”……“你说的是杰克·弗洛伊德吗？如果你愿意，请说是联系此人或拒绝重试”。

我想当你在车里而不拿着手机时这是一个加分，但值得额外的等待时间吗？所有选项的交互时间更长，尝试分析是否有人说了什么时的提示时间更长等等？此外，可靠性肯定比以前更好，但有时感觉更像是某人决定插入系统的玩具，因此它可以让人感觉未来感。

有设计 IVR 或使用（或选择不使用）语音识别的软件的经验吗？

谢谢！

score 1 · Accepted Answer

我认为语音识别和任何输入方法一样都有优点和缺点。

专业人士

没有学习曲线，我们从很小的时候就开始说话了。
非常用户直观。
在电话中，无需经常将耳机从耳边移开。

骗局

更长的等待时间
如果音质不好，需要多次尝试才能正确选择。

score 1 · Accepted Answer

语音识别与触摸屏技术相结合无疑是未来的潮流。例如，我使用 tazti 语音识别。它在 XP 和 Vista 版本中可用。由于微软的触摸屏“Surface”平台在 Vista 上运行，我确信 tazti 将与触摸屏技术一起工作。当我尝试 tazti 语音识别时，内置命令效果很好。它也让我创建自己的语音命令，这些命令也很好用。语音搜索 Google 和 Yahoo、Wikipedia Youtube 和许多其他搜索引擎效果很好。还有许多其他功能。但它没有听写。我发现我消除了 70% 或更多的互联网点击次数......也许更多。注意：Tazti 可以从他们的网站免费下载。

score 1 · Accepted Answer

在某些情况下，公司需要处理转盘电话。可能会发现仅设置识别系统而不是同时设置两者更具成本效益。

语音识别的开销比按键音多得多。如果您想要最好的结果，您需要不断调整应用程序并训练系统处理无法识别的单词发音。您还需要非常注意如何通过语音识别提示用户，否则您可能会得到意想不到的响应。

整体按键音要容易得多，因为在任何给定时间只有一组有限的可能选项。

如果您的应用程序足够直截了当，那么您的语音记录只会使其复杂化。按 2 获取其他语言..

score 1 · Accepted Answer

与键盘或小键盘相比，它背后的基本原理（在可用性方面）是什么？

可用性是一个非常广泛的术语。如果我试图用触摸板输入我的地址，它就不会被认为很有用。有人认为，使用整体成功率为 70-80% 的语音引擎也不是很有用。正如其他帖子中所指出的，对于那些使用手机的人来说，免提输入会容易得多。但是，如果主题对呼叫者来说有些陌生，那么使用文字输入与数字输入实际上可能不如按键式电话那么直观。呼叫者听到不太熟悉的术语和短语在提示的 10-30 秒内无法记住它们，但他们可以用手指将鼠标悬停在听起来最好的选择上或记住选择的顺序。

你有什么理由投资这个开发项目？

这是一个奇怪的问题。通常，在 IVR 环境中是否使用语音的决定并非来自世界的发展观。除非您有真正需要语音的特定要求，否则您几乎总是会降低总体成功率。演讲通常是企业形象的一个因素……或者拥有最新的技术玩具。

我想当你在车里而不拿着手机时这是一个加分，但值得额外的等待时间吗？

如今，使用现代 ASR 时，语音识别延迟并不是很高。在大多数情况下，输入与语音并行处理，语音识别结束之间的时间为 0.5 到 1 秒。请注意，许多 IVR 需要在某些输入后执行数据查找，这可能会显示为较慢的系统。超过 1 秒的正常输入通常是部署功率不足的迹象。

它在最初实施时可能并没有动力不足，但是通过调整工作，您可以做出很多性能与准确性的决定。为了获得下一个 0.1%，可以将资源推到超出峰值时的水平。

此外，可靠性肯定比以前更好，但有时感觉更像是某人决定插入系统的玩具，因此它可以让人感觉未来感。

一般来说，是的。在可靠性方面，您需要真正查看总体数字以了解系统。这是一场统计数据之战，个人不是很重要（除非他们拥有 VP 或以上的头衔）。通过优化输入（移动提示）、资源使用和其他语音识别调整参数，您可以尝试最大限度地提高准确性。对于基本的自然语言响应，您可以达到 90 多岁。但是，您的总体成功率要低得多。想象一下 5 个提示全部为 98%（实际上，您往往有一堆 99，然后是几个 90 年代中期或略低于）：.98 * .98 * .98 * .98 * .98 = 90%。这意味着十分之一的失败。那是在呼叫者混淆和业务规则之前。DTMF 输入通常非常接近 100%，即使在多次输入后也是如此。

有设计 IVR 或使用（或选择不使用）语音识别的软件的经验吗？是的。但是，我怀疑这真的不是你想要的问题。作为技术方面的人，这通常不是你的决定，你对它的影响有限。如果您真的在寻找演讲的利弊：

优点：

酷/时髦（注意，仅语音是不够的。您需要出色的 VUI 和语音才能）
适合避开耳塞的高度流动的人群。未来应该是将语音与触觉输入相结合。也许。它可能不会来自市场的 IVR 方面。
适用于 DTMF 无法完成的任务。请注意，其中许多问题在语音方面的成功率也很低。成本（相对于人力）通常是驱动因素而不是可用性。将呼叫放入语音信箱以更改地址可能非常划算。

缺点：

开发、部署和维护成本高昂。如果您不小心，添加新选择可能会对成功率产生重大影响。始终监控变化的影响。
经常部署不当。例如，只需说出您的数字菜单选择。这几乎常常是我们想要言语冷静，但却买不起真正需要什么才能实现言语冷静的情况。
成功率会更低，因此呼叫中心的成本会更高。
失败往往集中在特定的提示和个别呼叫者上。经常遇到系统问题的呼叫者会对您非常不满。
当他们不被理解时，呼叫者会生气。您的目标是确定您的客户群的一个子集并真正激怒他们吗？

usability - 可用性：语音识别与键盘

4 回答 4

Related

Reference