问题标签 [voice-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
8165 浏览

linux - 从任意音频文件中提取语音部分的好方法是什么?

我有一组用户上传的音频文件,不知道它们包含什么。

我想获取一个任意音频文件,并将某人说话的每个实例提取到单独的音频文件中。我不想检测实际的话,只是“开始说话”、“停止说话”点并在这些点生成新文件。

(我的目标是 Linux 环境,并在 Mac 上开发)

我发现了Sox,它看起来很有希望,并且它具有“vad”模式(语音活动检测)。然而,这似乎找到了第一个语音实例并在该点之前剥离音频,所以它很接近,但并不完全正确。

我还查看了 Python 的“wave”库,但是我需要编写自己的 Sox 的“vad”实现。

是否有任何命令行工具可以执行我想要的现成操作?如果没有,任何好的 Python 或 Ruby 方法?

0 投票
3 回答
31392 浏览

android - Android 应用程序中的语音检测

描述


我的应用程序从手机麦克风录制声音。我正在使用 android 标准类 ( android.media.AudioRecord) 来做到这一点。当我按下开始按钮应用程序开始录制时,应用程序有 2 个按钮“开始”和“停止”,当我按下停止应用程序停止录制并给我回缓冲区,语音数据为 .wav 格式。一切正常。

问题


我想以这种方式更改我的应用程序,当应用程序开始工作时,它开始分析来自麦克风的声音,如果用户保持静音应用程序继续分析来自麦克风的收入声音,如果用户开始说话应用程序开始记录来自麦克风的声音和然后用户完成通话应用程序停止录制并返回相同的缓冲区,语音数据为 .wav 格式。

问题


  1. 我如何检测到该用户开始说话
  2. 我如何检测到用户停下来说话
0 投票
0 回答
221 浏览

android - 安卓语音检测

我正在开发一个 Android 应用程序(目前仅适用于三星 Galaxy S4),我需要持续监控来自麦克风的声音以检测声音,以及可能有多少人在说话(我不想识别人正在说,只是检测到有人在说话)。我该怎么做?唯一的方法是通过MediaRecord getMaxAmplitude()?但是我怎么能理解有多少人在说话呢?谢谢

0 投票
0 回答
377 浏览

android - 用户说话时如何录制语音以及用户停止说话时如何播放录制的语音?

我正在服务类中编写 SpeechRecognizer 类来识别语音并在后台连续录制和播放,但是这段代码不起作用。

任何人都可以给我一个想法我该怎么做?

这是我的活动课:

这是我的服务类:

0 投票
0 回答
139 浏览

android - 当用户停止讲话时自动停止录音

我想制作一个应用程序来记录用户的声音,但在用户停止说话时关闭录音。我怎样才能做到这一点?

0 投票
0 回答
81 浏览

android - 为什么 UI 直到 while 循环中断才显示?

此代码在 Android 应用程序中的语音检测中得到解答。它工作正常,但存在页面内容不会加载的问题,除非检测到任何声音,并且此代码段也会使应用程序崩溃几次

0 投票
1 回答
1043 浏览

java - 使用 LIUM 的语音活动检测 (VAD/SAR)

我编写了一个 shell 脚本来训练几个 GMM 以进行某些类型的语音活动和静音。因此,我使用了 LIUM 扬声器分类工具包。我想用它来做语音活动检测。以下脚本使用 Sphinx4 从 wav 音频文件中提取 MFCC 特征,在这些特征上训练 GMM,并应用 Viterbi 解码进行分割。然而,结果很差,即得到的分割是完全错误的。这绝对不应该是这样,因为我将 GMM 应用于训练集本身。我究竟做错了什么?我为此付出了很多努力,但仍然无法使其正常工作。非常感谢您提前提供的任何帮助!

顺便说一句:我仔细检查了我的 wav 文件的输入格式,根据 Sphinx4 文档,它是单声道 16 位 LE。此外,我尝试了许多不同的参数设置,尤其是 emCtrl(GMM 训练)和 dPenalty(Viterbi 分割解码)等参数。对我没有任何帮助。

这是我的shell脚本:

0 投票
1 回答
788 浏览

python - 尝试安装软件包时出现 Setuptools 错误

我对 Python 完全陌生,我想在 Windows 7 中安装包py-webrtcvad,但我遇到了错误ImportError: No module named 'pip.utils.setuptools_build'。stackoverflow 中有一个对这个问题的答案,它似乎可以解决其他人的问题,但它对我不起作用。

以下是我迄今为止所做和尝试的总结:

  • 安装 Python 3.5 并设置 Windows 路径环境,以便它可以从任何目录工作。
  • 为 Python 安装了 pip。
  • 尝试使用 安装包python -m pip install webrtcvad,但失败,返回错误Unable to find vcvarsall.bat
  • 我找到了一个处理 vcvarsall.bat 问题的博客:blogs.msdn.microsoft.com/pythonengineering/2016/04/11/unable-to-find-vcvarsall-bat。按照该博客的指示:
    • 首先,我刚刚安装了 Visual C++ Build Tools 2015 并尝试立即安装包(不更新 setuptools),但我收到了很多错误消息(我没有写下来)。
    • 我尝试重新安装 setuptools,我按照https://pypi.python.org/pypi/setuptools中的说明进行了操作:我删除了我的 Python 安装 (v20) 附带的 setuptools 版本,并安装了最新版本 (v30) . 这次我在尝试安装 py-webrtcvad: 时收到了不同的错误消息ImportError: No module named 'pip.utils.setuptools_build'
  • 在 Python 官方聊天中寻求帮助。他们提出了三个建议:
    • 用 更新点子python -m pip install --upgrade pip。没用。再次,错误ImportError: No module named 'pip.utils.setuptools_build'
    • 重新安装 Visual C++ Build Tools 2015。没有区别,再次出现同样的错误。
    • 重新安装 Python 本身。Python 安装程序提供三种选择:修复、修改和卸载。
      • 修复:没用。同样的错误。
      • 修改:看起来它没有为此提供有用的修改。
      • 卸载:卸载并重新安装。还是同样的错误。

我没主意了。你能帮助我吗?

注意:我想这应该在带有 Python 3.5 的 Windows 7 中是可行的。但是,如果不是,我愿意尝试任何不同的东西。例如,安装不同版本的 Python 完全没有问题。如果可以解决问题,我也可以尝试安装 Linux。

0 投票
0 回答
486 浏览

webrtc - 如何运行 WebRTC 库

我想使用这个库:https ://github.com/voixen/voixen-vad

他们在自述文件的底部提供了一些示例代码。我的问题是如何运行它?我需要创建什么样的项目来集成这个库并运行上述代码?

任何帮助或示例都会很棒。

0 投票
1 回答
469 浏览

neural-network - 使用 Kaldi 使用深度神经网络进行命令检测,无需绑定到语言

有没有人看到任何示例如何设置简单的应用程序来训练 dnet,然后使用它来识别有限数量的语音命令而不绑定到特定语言?我相信 Kaldi API 非常强大,但缺乏文档。