java - 从麦克风录制的声音的音量

Question

我正在尝试编写一个在用户说话时做出反应的小程序。比如让一个圆圈变大或类似的东西。

我使用此代码访问麦克风，但我如何让它仅在用户说话时做出反应？例如，当录制的音量大于某个数量时。

    TargetDataLine line = null;
    AudioFormat format = new AudioFormat(16000, 16, 1, true, true);
    DataLine.Info info = new DataLine.Info(TargetDataLine.class, format);

    if(! AudioSystem.isLineSupported(info)){
        System.out.println("Line is not supported");
    }

    try{
        line = (TargetDataLine) AudioSystem.getLine(info);
        line.open();
    }catch(LineUnavailableException e){
        System.out.println("Failed to get line");
        System.exit(-1);
    }

    ByteArrayOutputStream out  = new ByteArrayOutputStream();
    int numBytesRead;
    byte[] data = new byte[line.getBufferSize() / 5];

    // Begin audio capture.
    line.start();

    int i = 0;

    // Here, stopped is a global boolean set by another thread.
    while (i<100) {
       // Read the next chunk of data from the TargetDataLine.
       numBytesRead =  line.read(data, 0, data.length);
       // Save this chunk of data.
       out.write(data, 0, numBytesRead);
       i++;
       System.out.println(i);
    }

score 0 · Accepted Answer

在最后一个 while 循环中，您正在一个名为“data”的缓冲区变量中收集声音数据。您需要做的是获取这些字节并将它们组装成可用的 DSP 值。这样做的代码取决于格式。最常见的是 16 位编码、立体声、little-endian。在这种情况下，您必须将字节对组合成值，其中第一个字节是低位，第二个字节是高位。关于这个主题有几篇文章，详细介绍了如何处理这个问题。

这些值的范围从 -32768 到 32767 （我是从内存中写的，可能是关闭的，但它是一个短的范围）。很难说您希望阈值在哪里，因为音量不仅取决于绝对值（越大越响），还取决于在较大值上花费的时间量。“安静”的声音可能具有非常大的瞬变值。此外，数字与分贝不直接对应，需要一个转换公式。

所以，有几个问题需要处理，但如果你只是进入 while 循环并解码“数据”，你可能会得到一些“足够好”的快速而肮脏的东西。

java - 从麦克风录制的声音的音量

1 回答 1

Related

Reference