1

我正在尝试编写一个程序,其中从计算机的麦克风中读取音频,以某种方式进行更改(现在只是为了测试它),然后通过扬声器播放出来。事实上,它工作得很好,但是在通过麦克风输入音频和可以听到音频之间有一个非常明显的延迟,我正试图找到一种方法来减少这种延迟。我知道要完全消除延迟几乎是不可能的,但我正在寻找一种至少让它几乎听不见的方法。

代码如下:

package com.funguscow;

import javax.sound.sampled.AudioFormat;
import javax.sound.sampled.AudioSystem;
import javax.sound.sampled.DataLine;
import javax.sound.sampled.SourceDataLine;
import javax.sound.sampled.TargetDataLine;

public class Listen {

    public static void main(String[] args){
        AudioFormat format = new AudioFormat(44100, 16, 2, true, true); //get the format for audio

        DataLine.Info targetInfo = new DataLine.Info(TargetDataLine.class, format); //input line
        DataLine.Info sourceInfo = new DataLine.Info(SourceDataLine.class, format); //output line

        try {
            TargetDataLine targetLine = (TargetDataLine) AudioSystem.getLine(targetInfo);
            targetLine.open(format);
            targetLine.start();

            SourceDataLine sourceLine = (SourceDataLine) AudioSystem.getLine(sourceInfo);
            sourceLine.open(format);
            sourceLine.start();

            int numBytesRead;
            byte[] targetData = new byte[sourceLine.getBufferSize()];

            while (true) {
                numBytesRead = targetLine.read(targetData, 0, targetData.length); //read into the buffer

                if (numBytesRead == -1) break;

                for(int i=0; i<numBytesRead/2; i++){ //apply hard distortion/clipping
                    int j = (((targetData[i * 2]) << 8) & 0xff00) | ((targetData[i * 2 + 1]) & 0xff);
                    j *= 2;
                    if(j > 65535) j = 65535;
                    if(j < 0) j = -0;
                    targetData[i * 2] = (byte)((j & 0xff00) >> 8);
                    targetData[i * 2 + 1] = (byte)(j & 0x00ff);
                }

                sourceLine.write(targetData, 0, numBytesRead); //play
            }
        }
        catch (Exception e) {
            System.err.println(e);
        }
    }

}

由于它似乎有大约 1 秒的延迟,是否有可能解决这个问题?

4

2 回答 2

1

我会声明一个带有缓冲区大小的最终 int。10 毫秒的延迟是每帧的字节数乘以每秒的帧数除以 100。如果立体声 16 位编码(CD 质量)为 44100fps,则为 (4 * 44100)/100 = 1764 字节.

然后,使用该缓冲区大小打开 TargetDataLine 和 SourceDataLine:

targetLine.open(format, BUFFER_SIZE);
sourceLine.open(format, BUFFER_SIZE);

检查这些行是否实际使用了您指定的大小,并在缓冲区数组的新字节声明中使用验证值。

您还可以在读取和写入中使用该常量。

您可能必须使用该值才能使其达到最佳状态。因此,只定义一次是有意义的,因此您不必进行多次编辑。该值必须对应于读取或写入整数帧所需的字节数。过高会增加延迟,过低会增加丢失的可能性。

10 毫秒将是相当不错的性能,尤其是在您不处理过度打击乐的情况下。

编辑,9/20:当今天有人投了赞成票时,我想起了这篇文章。缓冲区的问题可能确实是导致 OP 延迟 1 秒的主要原因,但使缓冲区更小只是一种措施。我最近学到的另一种可以采取的措施是在输入和编辑/输出之间使用缓冲区。原因是对拾音和回放的处理都是突飞猛进的。如果它们直接联系在一起,则较慢的过程将定义速度。如果两者之间有缓冲,两者都可以稍微弯曲而不会妨碍对方。

于 2015-12-16T23:44:34.593 回答
0

从返回的缓冲区有多大sourceLine.getBufferSize()?如果您以 44,100 个样本/秒的 2 个字节/样本从麦克风读取数据,则填充 88,200 个字节的缓冲区恰好需要 1 秒。我猜系统确定的缓冲区大约是那个大小。尝试在线使用较小的缓冲区byte[] targetData = new byte[sourceLine.getBufferSize()];我建议将其保持足够小,以便音频延迟为 10 毫秒或更短(即 882 字节或更小)以获得最佳用户体验。

于 2015-12-16T23:13:19.253 回答